論文の概要: SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes
- arxiv url: http://arxiv.org/abs/2507.07781v1
- Date: Thu, 10 Jul 2025 14:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.4335
- Title: SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes
- Title(参考訳): SURPRISE3D:複雑な3次元シーンにおける空間的理解と推論のためのデータセット
- Authors: Jiaxin Huang, Ziwen Li, Hanlve Zhang, Runnan Chen, Xiao He, Yandong Guo, Wenping Wang, Tongliang Liu, Mingming Gong,
- Abstract要約: Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
- 参考スコア(独自算出の注目度): 105.8644620467576
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of language and 3D perception is critical for embodied AI and robotic systems to perceive, understand, and interact with the physical world. Spatial reasoning, a key capability for understanding spatial relationships between objects, remains underexplored in current 3D vision-language research. Existing datasets often mix semantic cues (e.g., object name) with spatial context, leading models to rely on superficial shortcuts rather than genuinely interpreting spatial relationships. To address this gap, we introduce S\textsc{urprise}3D, a novel dataset designed to evaluate language-guided spatial reasoning segmentation in complex 3D scenes. S\textsc{urprise}3D consists of more than 200k vision language pairs across 900+ detailed indoor scenes from ScanNet++ v2, including more than 2.8k unique object classes. The dataset contains 89k+ human-annotated spatial queries deliberately crafted without object name, thereby mitigating shortcut biases in spatial understanding. These queries comprehensively cover various spatial reasoning skills, such as relative position, narrative perspective, parametric perspective, and absolute distance reasoning. Initial benchmarks demonstrate significant challenges for current state-of-the-art expert 3D visual grounding methods and 3D-LLMs, underscoring the necessity of our dataset and the accompanying 3D Spatial Reasoning Segmentation (3D-SRS) benchmark suite. S\textsc{urprise}3D and 3D-SRS aim to facilitate advancements in spatially aware AI, paving the way for effective embodied interaction and robotic planning. The code and datasets can be found in https://github.com/liziwennba/SUPRISE.
- Abstract(参考訳): 言語と3D知覚の統合は、体現されたAIとロボットシステムが物理的世界を認識し、理解し、相互作用するために重要である。
物体間の空間的関係を理解するための重要な能力である空間的推論は、現在の3次元視覚言語研究において未解明のままである。
既存のデータセットは、しばしば意味的なキュー(例:オブジェクト名)と空間的コンテキストを混合し、実際の空間的関係を解釈するのではなく、表面的なショートカットに依存する。
このギャップに対処するために、複雑な3Dシーンにおける言語誘導空間推論セグメンテーションを評価するために設計された新しいデータセットであるS\textsc{urprise}3Dを紹介する。
S\textsc{urprise}3Dは、ScanNet++ v2から900以上の詳細屋内シーンにまたがる200k以上の視覚言語対で構成されており、2.8k以上のユニークなオブジェクトクラスを含んでいる。
このデータセットは、対象名なしで意図的に構築された89k以上の空間的クエリを含むため、空間的理解におけるショートカットバイアスを軽減できる。
これらのクエリは、相対的位置、物語的視点、パラメトリック視点、絶対距離推論など、様々な空間的推論スキルを包括的にカバーしている。
初期のベンチマークでは、現在の最先端の専門家による3Dビジュアルグラウンド法と3D-LLMに対して、データセットとそれに伴う3D空間推論セグメンテーション(3D-SRS)ベンチマークスイートの必要性が強調されている。
S\textsc{urprise}3Dと3D-SRSは、空間的に認識されたAIの進歩を促進し、効果的な具体的相互作用とロボット計画の道を開くことを目的としている。
コードとデータセットはhttps://github.com/liziwennba/SUPRISEで確認できる。
関連論文リスト
- A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding [78.99798110890157]
Open-vocabulary 3D visual groundingは、自由形式の言語クエリに基づいてターゲットオブジェクトをローカライズすることを目的としている。
既存の言語フィールド手法は、言語クエリにおける空間的関係を利用してインスタンスを正確にローカライズするのに苦労する。
本研究では,大規模言語モデル(LLM)に基づく空間推論を用いたニューラル表現に基づく新しいフレームワークであるSpatialReasonerを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:20:38Z) - From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [16.38713257618971]
Anywhere3D-Benchは2,632個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-05T11:28:02Z) - SORT3D: Spatial Object-centric Reasoning Toolbox for Zero-Shot 3D Grounding Using Large Language Models [9.568997654206823]
SORT3Dは2Dデータからリッチなオブジェクト属性を利用し、大規模言語モデルの能力とAsベースの空間推論ツールボックスをマージするアプローチである。
2つのベンチマークにおいて、複雑なビュー依存のグラウンド化タスクにおいて、SORT3Dが最先端のパフォーマンスを達成することを示す。
私たちはまた、パイプラインを実装して、自動運転車でリアルタイムに実行し、我々のアプローチが、これまで見えなかった現実世界の環境において、オブジェクトゴールナビゲーションに使用できることを実証しています。
論文 参考訳(メタデータ) (2025-04-25T20:24:11Z) - RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトによるセグメンテーションを推論するための3次元推論セグメンテーションタスクを提案する。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,複数のオブジェクトのクエリを扱う新しい3D推論ネットワークMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Semantic Abstraction: Open-World 3D Scene Understanding from 2D
Vision-Language Models [17.606199768716532]
オープンセットの語彙とドメイン外視覚入力を用いて,エージェントが自身の3D環境を判断する必要があるタスクのファミリーである,オープンワールドの3Dシーン理解について検討する。
本稿では,2次元視覚言語モデルに新しい空間能力を付加したセマンティック抽象化(Semantic Abstraction, SemAbs)を提案する。
オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。
論文 参考訳(メタデータ) (2022-07-23T13:10:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。