論文の概要: Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning
- arxiv url: http://arxiv.org/abs/2603.23404v1
- Date: Tue, 24 Mar 2026 16:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.586751
- Title: Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning
- Title(参考訳): テキスト表現誘導推論による多モーダル大言語モデルにおける空間推論
- Authors: Jiacheng Hua, Yishu Yin, Yuhang Wu, Tai Wang, Yifei Huang, Miao Liu,
- Abstract要約: 既存の多言語大言語モデル(MLLM)は3次元空間推論に苦慮している。
Egocentric Video (TRACE) は,MLLMを誘導して3D環境のテキストベース表現を生成するプロンプト手法である。
- 参考スコア(独自算出の注目度): 16.426772665154665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Multimodal Large Language Models (MLLMs) struggle with 3D spatial reasoning, as they fail to construct structured abstractions of the 3D environment depicted in video inputs. To bridge this gap, drawing inspiration from cognitive theories of allocentric spatial reasoning, we investigate how to enable MLLMs to model and reason over text-based spatial representations of video. Specifically, we introduce Textual Representation of Allocentric Context from Egocentric Video (TRACE), a prompting method that induces MLLMs to generate text-based representations of 3D environments as intermediate reasoning traces for more accurate spatial question answering. TRACE encodes meta-context, camera trajectories, and detailed object entities to support structured spatial reasoning over egocentric videos. Extensive experiments on VSI-Bench and OST-Bench demonstrate that TRACE yields notable and consistent improvements over prior prompting strategies across a diverse range of MLLM backbones, spanning different parameter scales and training schemas. We further present ablation studies to validate our design choices, along with detailed analyses that probe the bottlenecks of 3D spatial reasoning in MLLMs.
- Abstract(参考訳): 既存のMLLM(Multimodal Large Language Models)は、ビデオ入力で表される3次元環境の構造的抽象化の構築に失敗するため、3次元空間推論に苦しむ。
このギャップを埋めるために、同心空間推論の認知理論からインスピレーションを得て、MLLMが動画のテキストに基づく空間表現をモデル化し、推論できるようにする方法について検討する。
具体的には、より正確な空間質問応答のための中間的推論トレースとして、3D環境のテキストベース表現を生成するためにMLLMを誘導するプロンプト手法である、Egocentric Video (TRACE) からのAllocentric Contextのテキスト表現を導入する。
TRACEは、メタコンテキスト、カメラトラジェクトリ、詳細なオブジェクトエンティティをエンコードし、エゴセントリックビデオ上の構造化空間推論をサポートする。
VSI-BenchとOST-Benchに関する大規模な実験は、TRACEが様々なMLLMバックボーンをまたいだ事前戦略よりも顕著で一貫した改善をもたらし、異なるパラメータスケールとトレーニングスキーマにまたがることを示した。
さらに, MLLMにおける3次元空間推論のボトルネックを調査する詳細な解析とともに, 設計選択を検証するためのアブレーション研究について述べる。
関連論文リスト
- Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - S$^2$-MLLM: Boosting Spatial Reasoning Capability of MLLMs for 3D Visual Grounding with Structural Guidance [20.55536735670125]
3Dビジュアルグラウンド(3DVG)は、自然言語記述に基づく3Dシーンにおけるオブジェクトの配置に焦点を当てている。
MLLM(Multi-modal Large Language Models)の最近の進歩は、それらを3DVGに拡張する研究の動機となっている。
S$2$-MLLMは、暗黙の空間的推論を通じてMLLMの空間的推論を強化する効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T03:08:34Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。