論文の概要: Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images
- arxiv url: http://arxiv.org/abs/2604.11025v1
- Date: Mon, 13 Apr 2026 05:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.350693
- Title: Test-time Scaling over Perception: Resolving the Grounding Paradox in Thinking with Images
- Title(参考訳): 知覚を超越したテストタイムスケーリング:画像による思考における接地パラドックスの解消
- Authors: Zheng Jiang, Yiming Chen, Nan He, Jiahui Chen, Chaoyang Li, Houde Qian, Lifeng Sun,
- Abstract要約: Test-Time Scaling over Perceptionは、知覚自体をスケーラブルな推論プロセスとして扱うフレームワークである。
以上の結果から,テスト時のスケーリング認知は,知覚の不確実性の下での頑健なマルチモーダル推論にとって有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 13.852199569297667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) have begun to support Thinking with Images by invoking visual tools such as zooming and cropping during inference. Yet these systems remain brittle in fine-grained visual reasoning because they must decide where to look before they have access to the evidence needed to make that decision correctly. We identify this circular dependency as the Grounding Paradox. To address it, we propose Test-Time Scaling over Perception (TTSP), a framework that treats perception itself as a scalable inference process. TTSP generates multiple exploratory perception traces, filters unreliable traces using entropy-based confidence estimation, distills validated observations into structured knowledge, and iteratively refines subsequent exploration toward unresolved uncertainty. Extensive experiments on high-resolution and general multimodal reasoning benchmarks show that TTSP consistently outperforms strong baselines across backbone sizes, while also exhibiting favorable scalability and token efficiency. Our results suggest that scaling perception at test time is a promising direction for robust multimodal reasoning under perceptual uncertainty.
- Abstract(参考訳): 最近のマルチモーダルな大規模言語モデル(MLLM)は、推論中にズームやトリミングなどの視覚ツールを起動することで、思考とイメージをサポートするようになった。
しかし、これらのシステムは、その決定を正しく行うために必要な証拠にアクセスする前に、どこで見るべきかを判断しなければならないため、きめ細かな視覚的推論において脆弱なままである。
この円形依存を接地パラドックスと同一視する。
そこで我々は,知覚自体をスケーラブルな推論プロセスとして扱うフレームワークであるTTSP(Test-Time Scaling over Perception)を提案する。
TTSPは複数の探索的知覚トレースを生成し、エントロピーに基づく信頼度推定を用いて信頼できないトレースをフィルタリングし、検証済みの観測結果を構造化された知識に蒸留し、未解決の不確実性に対するその後の探索を反復的に洗練する。
高分解能および一般的なマルチモーダル推論ベンチマークに関する広範囲な実験により、TTSPはバックボーンサイズ全体にわたって強いベースラインを一貫して上回り、スケーラビリティとトークン効率も良好であることが示されている。
以上の結果から,テスト時のスケーリング認知は,知覚の不確実性の下での頑健なマルチモーダル推論にとって有望な方向であることが示唆された。
関連論文リスト
- Entropy-Gradient Grounding: Training-Free Evidence Retrieval in Vision-Language Models [77.3748853516374]
視覚言語モデルのための学習不要なモデル固有のグラウンドリング手法を提案する。
モデルの次トーケン分布のエントロピーを計算し、それを視覚トークン埋め込みにバックプロパタイズしてエントロピー勾配のレバレンスマップを得る。
次に、複数のコヒーレント領域を抽出・ランク付けし、マルチエビデンスクエリをサポートし、空間エントロピー停止規則付き反復的なズーム・アンド・リグラウンド手順を導入する。
論文 参考訳(メタデータ) (2026-04-09T16:51:42Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models [21.438802784706994]
視覚的に基盤付けられたテストタイムスケーリングフレームワークであるVisRefを提案する。
私たちのキーとなる考え方は、ビジュアルトークンのコアセットを再注入することで、推論プロセスを積極的に導くことです。
固定されたテストタイム計算予算の下では、VisRefは既存のテストタイムスケーリングアプローチを最大6.4%上回っている。
論文 参考訳(メタデータ) (2026-02-27T11:48:19Z) - Deep But Reliable: Advancing Multi-turn Reasoning for Thinking with Images [53.373427633330515]
DRIMは,マルチモーダルCoTの画像について考える際に,深層かつ信頼性の高いマルチターン推論を可能にするモデルである。
高精細画像データセットに基づいて,高精細かつ検証可能な視覚的問合せ対を構築する。
SFTの段階では,ツールトラジェクトリをコールドスタートデータとして収集し,マルチターン推論パターンを導出する。
RLの段階では、冗長性を考慮したポリシー最適化を導入し、自己反射的推論パターンを開発するためのモデルにインセンティブを与える。
論文 参考訳(メタデータ) (2025-12-19T07:44:43Z) - Trace Length is a Simple Uncertainty Signal in Reasoning Models [18.432200654999082]
推理トレース長は大きな推理モデルにおいて有用な信頼度推定器であることを示す。
我々の研究は、学習後の推論がトレース長と精度の関係を根本的に変えることを明らかにしている。
高エントロピーや「フォーク」トークンはメカニズムにおいて重要な役割を担っていると認識する。
論文 参考訳(メタデータ) (2025-10-12T02:04:06Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Test-time Prompt Intervention [22.35022545068874]
テストタイム・プロンプト・インターベンションのための新しいフレームワークであるPIを提案する。
PIは推論中の推論パスを動的にガイドし、規制するインターフェースを提供する。
これにより、人間の問題解決の専門知識と認知科学の原則がLLMの推論プロセスにシームレスに統合される。
論文 参考訳(メタデータ) (2025-08-04T15:17:13Z) - Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。
中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。
SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:44:28Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。
LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。
トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。