論文の概要: Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2511.05894v1
- Date: Sat, 08 Nov 2025 07:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.642836
- Title: Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning
- Title(参考訳): 検索強化推論のためのオープンワールド3次元シーングラフ生成
- Authors: Fei Yu, Quan Deng, Shengeng Tang, Yuehua Li, Lechao Cheng,
- Abstract要約: 本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
- 参考スコア(独自算出の注目度): 24.17324180628543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding 3D scenes in open-world settings poses fundamental challenges for vision and robotics, particularly due to the limitations of closed-vocabulary supervision and static annotations. To address this, we propose a unified framework for Open-World 3D Scene Graph Generation with Retrieval-Augmented Reasoning, which enables generalizable and interactive 3D scene understanding. Our method integrates Vision-Language Models (VLMs) with retrieval-based reasoning to support multimodal exploration and language-guided interaction. The framework comprises two key components: (1) a dynamic scene graph generation module that detects objects and infers semantic relationships without fixed label sets, and (2) a retrieval-augmented reasoning pipeline that encodes scene graphs into a vector database to support text/image-conditioned queries. We evaluate our method on 3DSSG and Replica benchmarks across four tasks-scene question answering, visual grounding, instance retrieval, and task planning-demonstrating robust generalization and superior performance in diverse environments. Our results highlight the effectiveness of combining open-vocabulary perception with retrieval-based reasoning for scalable 3D scene understanding.
- Abstract(参考訳): オープンワールド環境での3Dシーンの理解は、特にクローズドボキャブラリの監督と静的アノテーションの制限により、ビジョンとロボティクスに根本的な課題をもたらす。
これを解決するために,検索型推論を用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案し,汎用的でインタラクティブな3Dシーン理解を実現する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本フレームワークは,(1)オブジェクトを検出し,固定ラベルセットなしで意味関係を推測する動的シーングラフ生成モジュールと,(2)テキスト/画像条件のクエリをサポートするために,シーングラフをベクトルデータベースにエンコードする検索拡張推論パイプラインとからなる。
本研究では,3DSSG と Replica ベンチマークを用いて,タスクシーンの質問応答,視覚的接地,インスタンス検索,タスク計画の実証,多種多様な環境における堅牢な一般化と優れた性能の検証を行った。
本結果は,オープン語彙認識と検索に基づく推論を組み合わせることで,スケーラブルな3次元シーン理解を実現することの有効性を強調した。
関連論文リスト
- KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文 参考訳(メタデータ) (2025-10-01T15:53:27Z) - Queryable 3D Scene Representation: A Multi-Modal Framework for Semantic Reasoning and Robotic Task Planning [28.803789915686398]
3D Queryable Scene Representation(3D QSR)は、3つの補完的な3D表現を統合するマルチメディアデータ上に構築されたフレームワークである。
オブジェクト中心の設計に基づいて構築されたこのフレームワークは、意味的なクエリビリティを実現するために、大きな視覚言語モデルと統合されている。
その結果,シーン理解の促進と空間的および意味的推論の統合が,フレームワークの持つ能力を示す。
論文 参考訳(メタデータ) (2025-09-24T12:53:32Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - LSVG: Language-Guided Scene Graphs with 2D-Assisted Multi-Modal Encoding for 3D Visual Grounding [15.944945244005952]
3Dビジュアルグラウンドティングは、自然言語で記述されたユニークなターゲットを3Dシーンでローカライズすることを目的としている。
本稿では,言語誘導型シーングラフを参照オブジェクト識別で構築する新しい3次元ビジュアルグラウンドディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-07T02:02:15Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。