論文の概要: Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling
- arxiv url: http://arxiv.org/abs/2512.05809v1
- Date: Fri, 05 Dec 2025 15:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.081208
- Title: Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling
- Title(参考訳): テスト時間スケーリングによる空間推論における世界モデルの有効性の検証
- Authors: Saurav Jha, M. Jehanzeb Mirza, Wei Lin, Shiqi Yang, Sarath Chandar,
- Abstract要約: 視覚言語モデル(VLM)は、多視点理解と具体的視点シフトを必要とする空間的推論タスクにおいて制限されている。
MindJourneyのような最近のアプローチは、テストタイムのスケーリングを通じてこのギャップを緩和しようと試みている。
このようなテストタイム検証がベンチマーク全体にわたってどのように振る舞うのかを調べ、彼らの約束と落とし穴の両方を明らかにする。
- 参考スコア(独自算出の注目度): 24.669665644647555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) remain limited in spatial reasoning tasks that require multi-view understanding and embodied perspective shifts. Recent approaches such as MindJourney attempt to mitigate this gap through test-time scaling where a world model imagines action-conditioned trajectories and a heuristic verifier selects helpful views from such trajectories. In this work, we systematically examine how such test-time verifiers behave across benchmarks, uncovering both their promise and their pitfalls. Our uncertainty-based analyses show that MindJourney's verifier provides little meaningful calibration, and that random scoring often reduces answer entropy equally well, thus exposing systematic action biases and unreliable reward signals. To mitigate these, we introduce a Verification through Spatial Assertions (ViSA) framework that grounds the test-time reward in verifiable, frame-anchored micro-claims. This principled verifier consistently improves spatial reasoning on the SAT-Real benchmark and corrects trajectory-selection biases through more balanced exploratory behavior. However, on the challenging MMSI-Bench, none of the verifiers, including ours, achieve consistent scaling, suggesting that the current world models form an information bottleneck where imagined views fail to enrich fine-grained reasoning. Together, these findings chart the bad, good, and ugly aspects of test-time verification for world-model-based reasoning. Our code is available at https://github.com/chandar-lab/visa-for-mindjourney.
- Abstract(参考訳): 視覚言語モデル(VLM)は、多視点理解と具体的視点シフトを必要とする空間的推論タスクにおいて制限されている。
MindJourneyのような最近のアプローチは、世界モデルがアクション条件付き軌跡を想像し、ヒューリスティック検証器がそのような軌跡から有用なビューを選択するテストタイムスケーリングを通じて、このギャップを緩和しようと試みている。
本研究では,テストタイム検証がベンチマーク全体にわたってどのように振る舞うかを系統的に検討し,その可能性と落とし穴を明らかにする。
我々の不確実性に基づく分析では、MindJourneyの検証器はほとんど意味のある校正を提供しておらず、ランダムなスコアリングが解のエントロピーを等しく減少させ、体系的な行動バイアスと信頼できない報酬信号を明らかにすることが示されている。
これらを緩和するために、検証可能なフレームアンコールによるマイクロハウジングにおいて、テスト時間報酬の根拠となる空間アサーションによる検証(ViSA)フレームワークを導入する。
この原理検証器はSAT-Realベンチマークの空間的推論を一貫して改善し、よりバランスの取れた探索行動によって軌道選択バイアスを補正する。
しかし、挑戦的なMMSI-Benchでは、我々のものを含む検証者はいずれも一貫したスケーリングを達成することができず、現在の世界モデルは、想像されたビューがきめ細かな推論を豊かにできない情報ボトルネックを形成していることを示唆している。
これらの調査結果は、世界モデルに基づく推論のためのテストタイム検証の悪い面、良い面、悪い面をまとめている。
私たちのコードはhttps://github.com/chandar-lab/visa-for-mindjourney.comで公開されています。
関連論文リスト
- MM-CoT:A Benchmark for Probing Visual Chain-of-Thought Reasoning in Multimodal Models [49.32415342913976]
マルチモーダルモデルにおけるCoT推論の視覚的グラウンドリングと論理的コヒーレンスを探索するための診断ベンチマークであるMM-CoTを紹介する。
MM-CoT上での先進的な視覚言語モデルの評価を行い,最も先進的なシステムでさえも苦戦し,生成頻度と真の推論忠実さの相違が明らかとなった。
論文 参考訳(メタデータ) (2025-12-09T04:13:31Z) - A Unified Reasoning Framework for Holistic Zero-Shot Video Anomaly Analysis [64.42659342276117]
ビデオの異常な研究のほとんどは、フレームワイド検出で停止し、なぜイベントが異常なのかについての洞察はほとんど得られない。
近年の動画の局所化と映像の異常理解手法は、説明可能性を改善するが、データに依存し、タスク固有のままである。
本稿では,時間的検出,空間的局所化,テキスト的説明のギャップを埋める統一的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T14:49:08Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Measuring Language Model Hallucinations Through Distributional Correctness [7.106986689736826]
この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。
DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
論文 参考訳(メタデータ) (2025-10-05T17:50:42Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。