論文の概要: When to Think and When to Look: Uncertainty-Guided Lookback
- arxiv url: http://arxiv.org/abs/2511.15613v1
- Date: Wed, 19 Nov 2025 17:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.90742
- Title: When to Think and When to Look: Uncertainty-Guided Lookback
- Title(参考訳): いつ考えるべきなのか、いつ見るべきなのか
- Authors: Jing Bi, Filippos Bellos, Junjia Guo, Yayuan Li, Chao Huang, Yunlong, Tang, Luchuan Song, Susan Liang, Zhongfei, Zhang, Jason J. Corso, Chenliang Xu,
- Abstract要約: 長い鎖は多くの場合、画像を無視した長い間違った軌跡を生み出します。
より深い分析により、画像に明示的に言及する短い振り返り句が、成功した軌跡に強く富んでいることが明らかとなった。
本研究では,不確実性信号と適応的なルックバックプロンプトと広帯域探索を組み合わせた学習自由復号法である不確実性ガイド付きルックバックを提案する。
- 参考スコア(独自算出の注目度): 59.99372635001709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time thinking (that is, generating explicit intermediate reasoning chains) is known to boost performance in large language models and has recently shown strong gains for large vision language models (LVLMs). However, despite these promising results, there is still no systematic analysis of how thinking actually affects visual reasoning. We provide the first such analysis with a large scale, controlled comparison of thinking for LVLMs, evaluating ten variants from the InternVL3.5 and Qwen3-VL families on MMMU-val under generous token budgets and multi pass decoding. We show that more thinking is not always better; long chains often yield long wrong trajectories that ignore the image and underperform the same models run in standard instruct mode. A deeper analysis reveals that certain short lookback phrases, which explicitly refer back to the image, are strongly enriched in successful trajectories and correlate with better visual grounding. Building on this insight, we propose uncertainty guided lookback, a training free decoding strategy that combines an uncertainty signal with adaptive lookback prompts and breadth search. Our method improves overall MMMU performance, delivers the largest gains in categories where standard thinking is weak, and outperforms several strong decoding baselines, setting a new state of the art under fixed model families and token budgets. We further show that this decoding strategy generalizes, yielding consistent improvements on five additional benchmarks, including two broad multimodal suites and math focused visual reasoning datasets.
- Abstract(参考訳): テストタイム思考(すなわち、明示的な中間推論連鎖を生成する)は、大きな言語モデルの性能を高めることが知られており、近年、大きな視覚言語モデル(LVLM)の強力な進歩を示している。
しかし、これらの有望な結果にもかかわらず、思考が実際に視覚的推論にどのように影響するかについての体系的な分析はいまだにない。
本稿では,MMMU-val 上の InternVL3.5 および Qwen3-VL ファミリーの 10 つの変種を,多元的トークン予算とマルチパス復号化の下で評価し,LVLM に対する思考の制御比較を行った。
長いチェーンは、イメージを無視して、標準のインストラクションモードで実行されている同じモデルを過小評価する長い間違った軌道を生成することが多い。
より深い分析により、画像に明示的に言及する短い振り返り句は、成功した軌道に強く富み、より良い視覚的接地と相関していることが明らかとなった。
この知見に基づいて、不確実性ガイド付きルックバック、不確実性信号と適応的なルックバックプロンプトと広帯域探索を組み合わせたトレーニング自由復号戦略を提案する。
提案手法はMMMU全体の性能を向上し,標準思考が弱いカテゴリにおいて最大の利益をもたらし,いくつかの強力なデコードベースラインを上回り,固定されたモデルファミリとトークン予算の下で新たな最先端技術の設定を行う。
さらに、この復号化戦略が一般化され、より広い2つのマルチモーダルスイートと数学に焦点を当てた視覚的推論データセットを含む5つのベンチマークが一貫した改善をもたらすことを示す。
関連論文リスト
- VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models [17.431298099935344]
大規模言語モデル(LLM)において、推論が重要な機能として現れている。
近年の研究では、視覚言語モデル(VLM)への推論の拡張が試みられている。
本研究は、マルチモーダル推論の二重性を明らかにし、他の基本的な視覚的問題に対する認識障害につながった。
本稿では,視覚的接地軌道に対する推論過程を明確に把握する,シンプルかつ効果的な手法であるビジョン・アンコレッド・ポリシー・オプティマイズ(VAPO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T06:37:47Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Dual-Stage Value-Guided Inference with Margin-Based Reward Adjustment for Fast and Faithful VLM Captioning [23.851747078717473]
We introduced textbfValue-guided Inference with Margin-based Reward (ViMaR), a two-stage inference framework that improves efficiency and output fidelity。
ViMaRは、より信頼性が高く、事実的正確で、詳細で、解説的なキャプションを生成し、しかも4$times$ Speedupを達成している。
論文 参考訳(メタデータ) (2025-06-18T17:23:36Z) - GThinker: Towards General Multimodal Reasoning via Cue-Guided Rethinking [35.14983424309319]
GThinkerは、一般的なシナリオ、数学、科学にまたがるマルチモーダル推論に優れた新しい推論MLLMである。
GThinker氏はCue-Rethinkingを紹介した。Cue-Rethinkingは視覚的手がかりを推論し、矛盾を解決するために反復的にこれらの手がかりを再解釈する柔軟な推論パターンである。
トレーニングを支援するため,GThinker-11Kの構築を行った。
論文 参考訳(メタデータ) (2025-06-01T16:28:26Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。