Fugu-MT 論文翻訳(概要): When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

論文の概要: When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

arxiv url: http://arxiv.org/abs/2602.08236v1
Date: Mon, 09 Feb 2026 03:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.049095
Title: When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
Title（参考訳）: 空間推論のための世界モデルを用いた適応的テスト時間スケーリング
Authors: Shoubin Yu, Yue Zhang, Zun Wang, Jaehong Yoon, Huaxiu Yao, Mingyu Ding, Mohit Bansal,
Abstract要約: 空間的推論のための制御可能な資源として,テスト時の視覚的想像力を詳細に分析する。静的な視覚的証拠が十分である場合、想像力が推論を改善するとき、そして過度または不要な想像力が精度と効率に与える影響について検討する。
参考スコア（独自算出の注目度）: 108.73849507002195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a scene would appear under unseen or alternative viewpoints. Recent work addresses this by augmenting reasoning with world models for visual imagination, but questions such as when imagination is actually necessary, how much of it is beneficial, and when it becomes harmful, remain poorly understood. In practice, indiscriminate imagination can increase computation and even degrade performance by introducing misleading evidence. In this work, we present an in-depth analysis of test-time visual imagination as a controllable resource for spatial reasoning. We study when static visual evidence is sufficient, when imagination improves reasoning, and how excessive or unnecessary imagination affects accuracy and efficiency. To support this analysis, we introduce AVIC, an adaptive test-time framework with world models that explicitly reasons about the sufficiency of current visual evidence before selectively invoking and scaling visual imagination. Across spatial reasoning benchmarks (SAT, MMSI) and an embodied navigation benchmark (R2R), our results reveal clear scenarios where imagination is critical, marginal, or detrimental, and show that selective control can match or outperform fixed imagination strategies with substantially fewer world-model calls and language tokens. Overall, our findings highlight the importance of analyzing and controlling test-time imagination for efficient and reliable spatial reasoning.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の急速な進歩にもかかわらず、視覚的空間推論は、正しい答えが見えない、あるいは別の視点でどのように現れるかによって、信頼性が低いままである。近年の研究では、視覚的想像力のための世界モデルによる推論を強化することでこの問題に対処しているが、実際いつ想像力が必要か、どのくらいの利益があるか、有害になったかといった疑問はいまだに理解されていない。実際には、非差別的な想像力は計算量を増やし、誤解を招く証拠を導入することで性能を低下させる。本研究では,空間的推論のための制御可能な資源として,テスト時の視覚的想像力を詳細に分析する。静的な視覚的証拠が十分である場合、想像力が推論を改善するとき、そして過度または不要な想像力が精度と効率に与える影響について検討する。この分析を支援するために,世界モデルを用いた適応型テストタイムフレームワークであるAVICを導入し,視覚的想像力を選択的に呼び出し,拡張する前に,現在の視覚的エビデンスの有効性を明確に説明する。空間的推論ベンチマーク (SAT, MMSI) と具体的ナビゲーションベンチマーク (R2R) を用いて, この結果から, 空間的推論ベンチマーク (SAT, MMSI) と, 空間的推論ベンチマーク (R2R) を用いて, 想像が重要, 限界的, あるいは有害なシナリオを明らかにした。本研究は, より効率的かつ信頼性の高い空間推論のために, テスト時の想像力を解析し, 制御することの重要性を強調した。

関連論文リスト

Internal World Models as Imagination Networks in Cognitive Agents [0.0]
我々は、内的世界モデル(IWM)にアクセスし、心理学的ネットワーク分析を用いて人間と大言語モデル(LLM)のIWMを探索することを提案する。我々の研究は、人間とAIの内部で生成された表現を比較する新しい方法を提供し、人工知能における人間のような想像力を開発するための洞察を提供する。
論文参考訳（メタデータ） (2025-10-05T23:01:10Z)
Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT [24.085953089267772]
複雑な場面において,OpenAI o3 と GPT-4o が基本的な物理法則,空間的相互作用,因果的影響を把握できないことを示す。我々は、視覚連鎖(CoT)レンズによる視覚的身体的推論を厳格に評価するベンチマークであるMVPBenchを紹介した。最先端のMLLMでさえ、物理領域における視覚的推論精度の低下と画像テキストアライメントの弱さを示す。
論文参考訳（メタデータ） (2025-05-30T03:48:59Z)
Grounded Reinforcement Learning for Visual Reasoning [51.94871616778874]
我々は、強化学習で訓練された視覚言語モデルViGoRL(Visually Grounded Reinforcement Learning)を紹介する。人間の視覚的意思決定にインスパイアされたViGoRLは、空間的に根拠のある推論トレースを生成することを学ぶ。この結果から,RLは汎用的な視覚的推論を用いたモデル入力の強力なパラダイムであることが示唆された。
論文参考訳（メタデータ） (2025-05-29T17:20:26Z)
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search [89.43196232124883]
VisuoThinkは、視覚空間と言語ドメインをシームレスに統合する新しいフレームワークである。プログレッシブなビジュアルテキスト推論を可能にし、ルックアヘッドツリーサーチによるテストタイムスケーリングを組み込む。
論文参考訳（メタデータ） (2025-04-12T08:37:30Z)
Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。 LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文参考訳（メタデータ） (2025-03-28T06:09:51Z)
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。 MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文参考訳（メタデータ） (2025-01-13T18:23:57Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models [40.41276154014666]
このベンチマークは、常識と世界知識を必要とする視覚的謎の視覚モデルと言語モデルをテストすることを目的としたものだ。ベンチマークは400個のビジュアル・ライドルで構成されており、それぞれが様々なテキスト・ツー・イメージ・モデルによって生成されるユニークなイメージを特徴としている。 Gemini-Pro-1.5は40%の精度で、既存のモデルは82%の精度で人間のパフォーマンスにかなり遅れている。
論文参考訳（メタデータ） (2024-07-28T11:56:03Z)
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models [37.44286562901589]
本研究では,空間推論の多様な側面をカバーする新しいベンチマークであるSpatialEvalを提案する。我々は、競合する言語と視覚言語モデルを総合的に評価する。文献で見過ごされてきたいくつかの反直感的な洞察が明らかとなった。
論文参考訳（メタデータ） (2024-06-21T03:53:37Z)
Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。 VoTはLLMの空間的推論能力を著しく向上させる。
論文参考訳（メタデータ） (2024-04-04T17:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。