論文の概要: SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D
- arxiv url: http://arxiv.org/abs/2603.04614v1
- Date: Wed, 04 Mar 2026 21:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.981483
- Title: SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D
- Title(参考訳): SGR3モデル:Scene Graph Retrieval-Reasoning Model in 3D
- Authors: Zirui Wang, Ruiping Liu, Yufan Chen, Junwei Zheng, Weijia Fan, Kunyu Peng, Di Wen, Jiale Wei, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: 3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
- 参考スコア(独自算出の注目度): 51.32219731589742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D scene graphs provide a structured representation of object entities and their relationships, enabling high-level interpretation and reasoning for robots while remaining intuitively understandable to humans. Existing approaches for 3D scene graph generation typically combine scene reconstruction with graph neural networks (GNNs). However, such pipelines require multi-modal data that may not always be available, and their reliance on heuristic graph construction can constrain the prediction of relationship triplets. In this work, we introduce a Scene Graph Retrieval-Reasoning Model in 3D (SGR3 Model), a training-free framework that leverages multi-modal large language models (MLLMs) with retrieval-augmented generation (RAG) for semantic scene graph generation. SGR3 Model bypasses the need for explicit 3D reconstruction. Instead, it enhances relational reasoning by incorporating semantically aligned scene graphs retrieved via a ColPali-style cross-modal framework. To improve retrieval robustness, we further introduce a weighted patch-level similarity selection mechanism that mitigates the negative impact of blurry or semantically uninformative regions. Experiments demonstrate that SGR3 Model achieves competitive performance compared to training-free baselines and on par with GNN-based expert models. Moreover, an ablation study on the retrieval module and knowledge base scale reveals that retrieved external information is explicitly integrated into the token generation process, rather than being implicitly internalized through abstraction.
- Abstract(参考訳): 3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供し、人間にとって直感的に理解できるままながら、ロボットの高度な解釈と推論を可能にする。
既存の3Dシーングラフ生成のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
しかし、そのようなパイプラインは必ずしも利用できるとは限らないマルチモーダルデータを必要とし、そのヒューリスティックグラフ構築への依存は関係三重項の予測を制約することができる。
本研究では,SGR3モデル(Scene Graph Retrieval-Reasoning Model in 3D)を提案する。
SGR3 Modelは明示的な3D再構成の必要性を回避している。
代わりに、ColPaliスタイルのクロスモーダルフレームワークを通じて取得されたセマンティックなアライメントされたシーングラフを組み込むことで、リレーショナル推論を強化する。
さらに, ボケや意味的不定形領域の負の影響を緩和する重み付きパッチレベルの類似度選択機構を導入する。
実験により、SGR3 Modelは、トレーニング不要のベースラインと、GNNベースのエキスパートモデルと同等の競争性能を達成することが示された。
さらに、検索モジュールと知識ベーススケールに関するアブレーション研究により、抽出された外部情報が抽象化によって暗黙的に内部化されるのではなく、トークン生成プロセスに明示的に統合されることが明らかになった。
関連論文リスト
- GeoSceneGraph: Geometric Scene Graph Diffusion Model for Text-guided 3D Indoor Scene Synthesis [14.137982018879049]
テキストプロンプトから室内の3Dシーンを合成する方法は、映画製作、インテリアデザイン、ビデオゲーム、バーチャルリアリティ、人工エージェントのトレーニングのための合成データ生成に広く応用されている。
既存のアプローチは通常、スクラッチから生成モデルを訓練するか、視覚言語モデル(VLM)を活用するかのいずれかである。
テキストプロンプトから3次元シーンを合成するGeoSceneGraphを導入する。
論文 参考訳(メタデータ) (2025-11-18T20:06:49Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - Explore Contextual Information for 3D Scene Graph Generation [43.66442227874461]
3次元シーングラフ生成(SGG)はコンピュータビジョンに大きな関心を寄せている。
本稿では,3次元SGGタスクのコンテキスト情報を完全に探索するフレームワークを提案する。
提案手法は,従来の3DSSGデータセットの手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-12T14:26:17Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - A Deep Latent Space Model for Graph Representation Learning [10.914558012458425]
本稿では,従来の潜時変動に基づく生成モデルをディープラーニングフレームワークに組み込むために,有向グラフのための深潜時空間モデル(DLSM)を提案する。
提案モデルは,階層的変動型オートエンコーダアーキテクチャによって階層的に接続されるグラフ畳み込みネットワーク(GCN)エンコーダとデコーダから構成される。
実世界のデータセットにおける実験により,提案モデルがリンク予測とコミュニティ検出の両タスクにおける最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-06-22T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。