論文の概要: EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2604.03318v1
- Date: Wed, 01 Apr 2026 15:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.506315
- Title: EgoMind: Activating Spatial Cognition through Linguistic Reasoning in MLLMs
- Title(参考訳): EgoMind:MLLMにおける言語推論による空間認知の活性化
- Authors: Zhenghao Chen, Huiqun Wang, Di Huang,
- Abstract要約: EgoMindはChainof-Thoughtフレームワークで、RolePlay Captionを通じて幾何学のない空間推論を可能にする。
5Kサンプルと20K RLサンプルだけで、EgoMindはMLLMBenchs、SITEBench、SPBenchで有効である。
- 参考スコア(独自算出の注目度): 36.84953281346447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly being applied to spatial cognition tasks, where they are expected to understand and interact with complex environments. Most existing works improve spatial reasoning by introducing 3D priors or geometric supervision, which enhances performance but incurs substantial data preparation and alignment costs. In contrast, purely 2D approaches often struggle with multi-frame spatial reasoning due to their limited ability to capture cross-frame spatial relationships. To address these limitations, we propose EgoMind, a Chain-of-Thought framework that enables geometry-free spatial reasoning through Role-Play Caption, which jointly constructs a coherent linguistic scene graph across frames, and Progressive Spatial Analysis, which progressively reasons toward task-specific questions. With only 5K auto-generated SFT samples and 20K RL samples, EgoMind achieves competitive results on VSI-Bench, SPAR-Bench, SITE-Bench, and SPBench, demonstrating its effectiveness in strengthening the spatial reasoning capabilities of MLLMs and highlighting the potential of linguistic reasoning for spatial cognition. Code and data are released at https://github.com/Hyggge/EgoMind.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、複雑な環境を理解し、相互作用することが期待される空間認知タスクにますます適用されてきている。
既存のほとんどの研究は、3Dプリエントや幾何学的監督を導入して空間推論を改善しており、性能は向上するが、かなりのデータ準備とアライメントコストがかかる。
対照的に、純粋に2Dアプローチは、クロスフレーム空間関係をキャプチャする能力に制限があるため、多フレーム空間推論に苦しむことが多い。
これらの制約に対処するために,ロールプレイ・キャプション(Role-Play Caption)による幾何学的自由空間推論を可能にするチェーン・オブ・ソート(Chain-of-Thought)フレームワークであるEgoMindと,タスク固有の質問に対して徐々に理由づけるプログレッシブ空間分析(Progressive Spatial Analysis)を提案する。
5Kの自動生成SFTサンプルと20K RLサンプルのみを用いて、EgoMindはVSI-Bench、SPAR-Bench、SITE-Bench、SPBenchの競争結果を達成し、MLLMの空間推論能力を強化し、空間認知のための言語推論の可能性を強調した。
コードとデータはhttps://github.com/Hyggge/EgoMind.comで公開されている。
関連論文リスト
- Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning [16.426772665154665]
既存の多言語大言語モデル(MLLM)は3次元空間推論に苦慮している。
Egocentric Video (TRACE) は,MLLMを誘導して3D環境のテキストベース表現を生成するプロンプト手法である。
論文 参考訳(メタデータ) (2026-03-24T16:38:09Z) - SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery [64.67498968405327]
SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
論文 参考訳(メタデータ) (2025-12-08T17:20:50Z) - SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards [37.39035418889281]
構造的空間接地と多段階推論を統合するためにRLで訓練された3D対応MLLMであるSpatialThinkerを紹介する。
このモデルは,タスク関連オブジェクトと空間関係のシーングラフを構築し,密集した空間報酬による回答への推論を行うことにより,人間のような空間知覚をシミュレートする。
論文 参考訳(メタデータ) (2025-11-10T18:52:47Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。