論文の概要: Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation
- arxiv url: http://arxiv.org/abs/2510.20812v1
- Date: Thu, 23 Oct 2025 17:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.54291
- Title: Small Drafts, Big Verdict: Information-Intensive Visual Reasoning via Speculation
- Title(参考訳): 小さなドラフト, 大きな評価: 推測による情報集約型ビジュアル推論
- Authors: Yuhan Liu, Lianhui Qin, Shengjie Wang,
- Abstract要約: 我々は、投機的復号化にインスパイアされたトレーニング不要のフレームワーク、Speculative Verdictを提案する。
ドラフト段階では、小さなVLMがドラフトエキスパートとして機能し、多様なローカライゼーション候補を提供する推論パスを生成する。
判定段階では、強いVLMがこれらの経路を合成して最終回答を生成し、正しい回答を回復しながら計算コストを最小化する。
- 参考スコア(独自算出の注目度): 32.34905537015097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) have achieved remarkable progress in multimodal understanding, yet they struggle when reasoning over information-intensive images that densely interleave textual annotations with fine-grained graphical elements. The main challenges lie in precisely localizing critical cues in dense layouts and multi-hop reasoning to integrate dispersed evidence. We propose Speculative Verdict (SV), a training-free framework inspired by speculative decoding that combines multiple lightweight draft experts with a large verdict model. In the draft stage, small VLMs act as draft experts to generate reasoning paths that provide diverse localization candidates; in the verdict stage, a strong VLM synthesizes these paths to produce the final answer, minimizing computational cost while recovering correct answers. To further improve efficiency and accuracy, SV introduces a consensus expert selection mechanism that forwards only high-agreement reasoning paths to the verdict. Empirically, SV achieves consistent gains on challenging information-intensive and high-resolution visual question answering benchmarks, including InfographicVQA, ChartMuseum, ChartQAPro, and HR-Bench 4K. By synthesizing correct insights from multiple partially accurate reasoning paths, SV achieves both error correction and cost-efficiency compared to large proprietary models or training pipelines. Code is available at https://github.com/Tinaliu0123/speculative-verdict
- Abstract(参考訳): VLM(Large Vision-Language Models)はマルチモーダル理解において顕著な進歩を遂げている。
主な課題は、密集したレイアウトにおいて重要な手がかりを正確に位置決めすることと、分散された証拠を統合するためのマルチホップ推論である。
我々は,複数の軽量なドラフトエキスパートと大規模な検証モデルを組み合わせた投機的復号化にインスパイアされた,訓練不要のフレームワークであるSpeculative Verdict(SV)を提案する。
ドラフト段階では、小さなVLMは、様々なローカライゼーション候補を提供する推論パスを生成するためにドラフトエキスパートとして機能し、検証段階では、強力なVLMがこれらのパスを合成して最終回答を生成し、正しい回答を回復しながら計算コストを最小化する。
SVは、効率と精度をさらに向上するため、判定に高い精度の推論経路のみを転送するコンセンサス専門家選択機構を導入している。
SVは、InfographicVQA、ChartMuseum、ChartQAPro、HR-Bench 4Kなど、情報集約的で高解像度の視覚質問応答ベンチマークにおいて、一貫したゲインを達成している。
複数の部分的正確な推論経路から正しい洞察を合成することにより、SVは大規模なプロプライエタリモデルやトレーニングパイプラインと比較してエラー訂正とコスト効率の両方を達成する。
コードはhttps://github.com/Tinaliu0123/speculative-verdictで公開されている。
関連論文リスト
- MPCAR: Multi-Perspective Contextual Augmentation for Enhanced Visual Reasoning in Large Vision-Language Models [7.702194892874595]
Multi-Perspective Contextual Augmentation for Reasoning (MPCAR)は、LVLM(Large Vision-Language Models)を強化するために設計された新しい推論時間戦略である。
第一に、LVLMは様々な角度から N の多様で相補的な記述や予備的推論経路を生成し、第二に、これらの記述は、元の質問とインテリジェントに統合され、包括的な文脈拡張プロンプトを構築し、最後に、このリッチ化されたプロンプトは、深い推論と最終回答生成のために究極の LVLM を導く。
論文 参考訳(メタデータ) (2025-08-17T15:25:01Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。