論文の概要: MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2507.12508v1
- Date: Wed, 16 Jul 2025 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.221077
- Title: MindJourney: Test-Time Scaling with World Models for Spatial Reasoning
- Title(参考訳): MindJourney: 空間推論のための世界モデルによるテスト時間スケーリング
- Authors: Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan,
- Abstract要約: 3次元空間における空間的推論は、人間の認知の中心であり、ナビゲーションや操作などの具体的タスクには不可欠である。
私たちはMindJourneyを提案します。これはテスト時のスケーリングフレームワークで、この不足した機能を備えたビジョン言語モデルを提供します。
我々は,代表的空間推論ベンチマークSATにおいて,MindJourneyが平均8%以上の性能向上を達成したことを示す。
- 参考スコア(独自算出の注目度): 82.46482433335535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning in 3D space is central to human cognition and indispensable for embodied tasks such as navigation and manipulation. However, state-of-the-art vision-language models (VLMs) struggle frequently with tasks as simple as anticipating how a scene will look after an egocentric motion: they perceive 2D images but lack an internal model of 3D dynamics. We therefore propose MindJourney, a test-time scaling framework that grants a VLM with this missing capability by coupling it to a controllable world model based on video diffusion. The VLM iteratively sketches a concise camera trajectory, while the world model synthesizes the corresponding view at each step. The VLM then reasons over this multi-view evidence gathered during the interactive exploration. Without any fine-tuning, our MindJourney achieves over an average 8% performance boost on the representative spatial reasoning benchmark SAT, showing that pairing VLMs with world models for test-time scaling offers a simple, plug-and-play route to robust 3D reasoning. Meanwhile, our method also improves upon the test-time inference VLMs trained through reinforcement learning, which demonstrates the potential of our method that utilizes world models for test-time scaling.
- Abstract(参考訳): 3次元空間における空間的推論は人間の認知の中心であり、ナビゲーションや操作といった具体的タスクには不可欠である。
しかし、最先端の視覚言語モデル(VLM)は、シーンがエゴセントリックな動きをどう見ているかを予想するような単純なタスクとしばしば苦労する。
そこで我々はMindJourneyを提案する。ビデオ拡散に基づく制御可能な世界モデルにVLMを結合することで、この欠落した能力にVLMを付与するテストタイムスケーリングフレームワークである。
VLMは簡潔なカメラ軌道を反復的にスケッチし、ワールドモデルは各ステップで対応するビューを合成する。
VLMはその後、対話的な探査中に集められたこの多視点の証拠を理由づけた。
私たちのMindJourneyは、代表的な空間推論ベンチマークSATで平均8%以上のパフォーマンス向上を実現し、テストタイムスケーリングのための世界モデルとVLMをペアリングすることで、堅牢な3D推論へのシンプルでプラグ&プレイのルートが提供されることを示しています。
一方,本手法は強化学習によって訓練されたテスト時間推定VLMを改善し,テスト時間スケーリングに世界モデルを利用する手法の可能性を示す。
関連論文リスト
- Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [8.090058633054852]
ビジュアライゼーション・ランゲージ・アクション(VLA)モデルに3次元幾何学的特徴を暗黙的に注入するプラグイン・アンド・プレイ・モジュールを導入する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.12671761097701]
視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。
我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。
本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文 参考訳(メタデータ) (2025-03-25T05:08:06Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - 3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。
このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。
本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:59:49Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。