論文の概要: RieMind: Geometry-Grounded Spatial Agent for Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.15386v1
- Date: Mon, 16 Mar 2026 15:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.518995
- Title: RieMind: Geometry-Grounded Spatial Agent for Scene Understanding
- Title(参考訳): RieMind: 風景理解のための幾何学的空間エージェント
- Authors: Fernando Ropero, Erkin Turkoz, Daniel Matos, Junqing Du, Antonio Ruiz, Yanfeng Zhang, Lu Liu, Mingwei Sun, Yongliang Wang,
- Abstract要約: 現在のアプローチは、端から端までのビデオ理解や、微調整による大規模空間質問に頼っている。
明示的な3次元シーングラフ(3DSG)にLCMを接地する静的3次元屋内シーンのためのエージェントフレームワークを提案する。
エージェントの変種は,平均33%から50%の間で,大幅なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 47.34079422330063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Language Models (VLMs) have increasingly become the main paradigm for understanding indoor scenes, but they still struggle with metric and spatial reasoning. Current approaches rely on end-to-end video understanding or large-scale spatial question answering fine-tuning, inherently coupling perception and reasoning. In this paper, we investigate whether decoupling perception and reasoning leads to improved spatial reasoning. We propose an agentic framework for static 3D indoor scene reasoning that grounds an LLM in an explicit 3D scene graph (3DSG). Rather than ingesting videos directly, each scene is represented as a persistent 3DSG constructed by a dedicated perception module. To isolate reasoning performance, we instantiate the 3DSG from ground-truth annotations. The agent interacts with the scene exclusively through structured geometric tools that expose fundamental properties such as object dimensions, distances, poses, and spatial relationships. The results we obtain on the static split of VSI-Bench provide an upper bound under ideal perceptual conditions on the spatial reasoning performance, and we find that it is significantly higher than previous works, by up to 16\%, without task specific fine-tuning. Compared to base VLMs, our agentic variant achieves significantly better performance, with average improvements between 33\% to 50\%. These findings indicate that explicit geometric grounding substantially improves spatial reasoning performance, and suggest that structured representations offer a compelling alternative to purely end-to-end visual reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、屋内シーンを理解するための主要なパラダイムとなっているが、メートル法や空間的推論に苦慮している。
現在のアプローチは、端から端までのビデオ理解や、微調整に答える大規模な空間的質問に依存しており、本質的には知覚と推論を結合している。
本稿では,認識と推論の分離が空間的推論の改善につながるかどうかを考察する。
本研究では,3次元シーングラフ(3DSG)にLCMを接地する静的3次元屋内シーンのエージェントフレームワークを提案する。
ビデオを直接摂取するのではなく、各シーンは専用の知覚モジュールによって構築された永続的な3DSGとして表現される。
推論性能を分離するため、3DSGを接地規則アノテーションからインスタンス化する。
エージェントは、物体の寸法、距離、ポーズ、空間的関係といった基本的な性質を明らかにする構造化された幾何学的ツールを通して、シーンとのみ対話する。
VSI-Bench の静的分割結果から,空間的推論性能の理想的条件下での上界が得られ,タスク固有の微調整を伴わずに,従来の作業よりも最大16倍高い値が得られることがわかった。
基本VLMと比較すると,エージェント変種は平均33\%から50\%に改善され,性能が大幅に向上する。
これらの結果から,空間的推論性能は明瞭な幾何学的グラウンドリングにより著しく向上し,構造化された表現が純粋にエンドツーエンドの視覚的推論に代わる魅力的な代替手段となることが示唆された。
関連論文リスト
- RenderMem: Rendering as Spatial Memory Retrieval [3.781421673607643]
身体的推論は本質的に視点に依存している。
本稿では3次元世界表現と空間推論のインターフェースとしてレンダリングを扱う空間記憶フレームワークRenderMemを紹介する。
論文 参考訳(メタデータ) (2026-03-15T23:53:40Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Reasoning in Space via Grounding in the World [28.913518130948244]
本研究では,そのギャップを埋める効果的な空間表現を探るため,GS-Spatial Reasoner(GS-Reasoner)を提案する。
GS-Reasonerは、3Dの視覚的グラウンドで印象的な結果を得ることができ、それによって空間的推論能力が大幅に向上する。
論文 参考訳(メタデータ) (2025-10-15T17:58:08Z) - SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。
Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。
データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文 参考訳(メタデータ) (2025-07-10T14:01:24Z) - ReasonGrounder: LVLM-Guided Hierarchical Feature Splatting for Open-Vocabulary 3D Visual Grounding and Reasoning [68.4209681278336]
Open-vocabulary 3D visual grounding and reasoningは、暗黙の言語記述に基づくシーン内のオブジェクトのローカライズを目的としている。
現在の方法は、3Dアノテーションとマスクの提案による微調整に大きく依存しているため、苦労している。
適応グルーピングのための階層型3次元特徴ガウス場を用いたLVLM誘導フレームワークであるReasonGrounderを提案する。
論文 参考訳(メタデータ) (2025-03-30T03:40:35Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。