論文の概要: When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2602.08236v1
- Date: Mon, 09 Feb 2026 03:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.049095
- Title: When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
- Title(参考訳): 空間推論のための世界モデルを用いた適応的テスト時間スケーリング
- Authors: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal,
- Abstract要約: 空間的推論のための制御可能な資源として,テスト時の視覚的想像力を詳細に分析する。
静的な視覚的証拠が十分である場合、想像力が推論を改善するとき、そして過度または不要な想像力が精度と効率に与える影響について検討する。
- 参考スコア(独自算出の注目度): 108.73849507002195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進歩にもかかわらず、視覚的空間推論は、正しい答えが見えない、あるいは別の視点でどのように現れるかによって、信頼性が低いままである。
近年の研究では、視覚的想像力のための世界モデルによる推論を強化することでこの問題に対処しているが、実際いつ想像力が必要か、どのくらいの利益があるか、有害になったかといった疑問はいまだに理解されていない。
実際には、非差別的な想像力は計算量を増やし、誤解を招く証拠を導入することで性能を低下させる。
本研究では,空間的推論のための制御可能な資源として,テスト時の視覚的想像力を詳細に分析する。
静的な視覚的証拠が十分である場合、想像力が推論を改善するとき、そして過度または不要な想像力が精度と効率に与える影響について検討する。
この分析を支援するために,世界モデルを用いた適応型テストタイムフレームワークであるAVICを導入し,視覚的想像力を選択的に呼び出し,拡張する前に,現在の視覚的エビデンスの有効性を明確に説明する。
空間的推論ベンチマーク (SAT, MMSI) と具体的ナビゲーションベンチマーク (R2R) を用いて, この結果から, 空間的推論ベンチマーク (SAT, MMSI) と, 空間的推論ベンチマーク (R2R) を用いて, 想像が重要, 限界的, あるいは有害なシナリオを明らかにした。
本研究は, より効率的かつ信頼性の高い空間推論のために, テスト時の想像力を解析し, 制御することの重要性を強調した。
関連論文リスト
- Grounded Reinforcement Learning for Visual Reasoning [51.94871616778874]
我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。
人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。
この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
論文 参考訳(メタデータ) (2025-05-29T17:20:26Z) - VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search [89.43196232124883]
VisuoThinkは、視覚空間と言語ドメインをシームレスに統合する新しいフレームワークである。
プログレッシブなビジュアルテキスト推論を可能にし、ルックアヘッドツリーサーチによるテストタイムスケーリングを組み込む。
論文 参考訳(メタデータ) (2025-04-12T08:37:30Z) - Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models [40.41276154014666]
このベンチマークは、常識と世界知識を必要とする視覚的謎の視覚モデルと言語モデルをテストすることを目的としたものだ。
ベンチマークは400個のビジュアル・ライドルで構成されており、それぞれが様々なテキスト・ツー・イメージ・モデルによって生成されるユニークなイメージを特徴としている。
Gemini-Pro-1.5は40%の精度で、既存のモデルは82%の精度で人間のパフォーマンスにかなり遅れている。
論文 参考訳(メタデータ) (2024-07-28T11:56:03Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。