論文の概要: SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery
- arxiv url: http://arxiv.org/abs/2512.07733v1
- Date: Mon, 08 Dec 2025 17:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.977887
- Title: SpatialDreamer: Incentivizing Spatial Reasoning via Active Mental Imagery
- Title(参考訳): SpaceDreamer:アクティブ・メンタル・イメージによる空間推論のインセンティブ化
- Authors: Meng Cao, Xingyu Li, Xue Liu, Ian Reid, Xiaodan Liang,
- Abstract要約: SpaceDreamerは、活発な探索のクローズループプロセスを通じて空間推論を可能にする強化学習フレームワークである。
GeoPOは、整合性幾何制約を伴う木構造サンプリングとステップレベルの報酬推定を導入している。
- 参考スコア(独自算出の注目度): 64.67498968405327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite advancements in Multi-modal Large Language Models (MLLMs) for scene understanding, their performance on complex spatial reasoning tasks requiring mental simulation remains significantly limited. Current methods often rely on passive observation of spatial data, failing to internalize an active mental imagery process. To bridge this gap, we propose SpatialDreamer, a reinforcement learning framework that enables spatial reasoning through a closedloop process of active exploration, visual imagination via a world model, and evidence-grounded reasoning. To address the lack of fine-grained reward supervision in longhorizontal reasoning tasks, we propose Geometric Policy Optimization (GeoPO), which introduces tree-structured sampling and step-level reward estimation with geometric consistency constraints. Extensive experiments demonstrate that SpatialDreamer delivers highly competitive results across multiple challenging benchmarks, signifying a critical advancement in human-like active spatial mental simulation for MLLMs.
- Abstract(参考訳): シーン理解のためのMLLM(Multi-modal Large Language Models)の進歩にもかかわらず、複雑な空間推論タスクにおいて、メンタルシュミレーションを必要とするパフォーマンスは依然として著しく制限されている。
現在の手法は、しばしば空間データの受動的観察に依存し、活動的な精神画像プロセスの内部化に失敗する。
本研究では,このギャップを埋めるために,積極的に探索するクローズループプロセス,世界モデルによる視覚的想像力,エビデンスに基づく推論を通じて空間推論を可能にする強化学習フレームワークであるSpatialDreamerを提案する。
縦断的推論タスクにおける微粒な報酬管理の欠如に対処するため,木構造的サンプリングと幾何整合性制約によるステップレベルの報酬推定を導入した幾何ポリシー最適化(GeoPO)を提案する。
大規模な実験により、SpatialDreamerは複数の挑戦的なベンチマークで高い競争力を発揮することが示され、MLLMの人間のような活動的空間精神シミュレーションにおける重要な進歩を示している。
関連論文リスト
- REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:04:18Z) - 11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis [54.24689751375923]
本研究では,最先端MLLMの空間的推論能力を評価するためのシステム評価フレームワークを提案する。
14個のMLLMの実験と人間の評価により、現在のMLLMは空間認知の早期の兆候を示すことが明らかとなった。
これらの知見は,現在のMLLMの空間的推論能力の出現能力と限界の両方を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-27T17:22:34Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。