論文の概要: Revisiting Greedy Decoding for Visual Question Answering: A Calibration Perspective
- arxiv url: http://arxiv.org/abs/2604.23443v1
- Date: Sat, 25 Apr 2026 21:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.342694
- Title: Revisiting Greedy Decoding for Visual Question Answering: A Calibration Perspective
- Title(参考訳): 視覚的質問応答のためのグレディデコードの再検討:校正的視点
- Authors: Boqi Chen, Xudong Liu, Yunke Ao, Jianing Qiu,
- Abstract要約: グレディサンプリング戦略は、出力コヒーレンスと多様性のバランスをとるために、大きな言語モデルで広く採用されている。
グリージーデコーディングは視覚質問(VQA)の有効かつ強力なデフォルトであることを示す。
マルチモーダル推論シナリオにおいてサンプリングと標準復号の両方に優れる推論モデルを提案する。
- 参考スコア(独自算出の注目度): 16.787456677570127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic sampling strategies are widely adopted in large language models (LLMs) to balance output coherence and diversity. These heuristics are often inherited in Multimodal LLMs (MLLMs) without task-specific justification. However, we contend that stochastic decoding can be suboptimal for Visual Question Answering (VQA). VQA is a closed-ended task with head-heavy answer distributions where uncertainty is usually epistemic, arising from missing or ambiguous visual evidence rather than plausible continuations. In this work, we provide a theoretical formalization of the relationship between model calibration and predictive accuracy, and derive the sufficient conditions for greedy decoding optimality. Extensive experiments provide empirical evidence for the superiority of greedy decoding over stochastic sampling across multiple benchmarks. Furthermore, we propose Greedy Decoding for Reasoning Models, which outperforms both stochastic sampling and standard greedy decoding in multimodal reasoning scenarios. Overall, our results caution against naively inheriting LLMs decoding heuristics in MLLMs and demonstrate that greedy decoding can be an efficient yet strong default for VQA.
- Abstract(参考訳): 確率的サンプリング戦略は、出力コヒーレンスと多様性のバランスをとるために、大きな言語モデル(LLM)で広く採用されている。
これらのヒューリスティックスは、タスク固有の正当化なしに、しばしばMLLM(Multimodal LLM)で継承される。
しかし、確率的復号化は視覚質問応答(VQA)に最適であると主張する。
VQAは頭重みの答え分布を持つ閉じたタスクであり、不確実性は通常、確実な継続ではなく、欠落または曖昧な視覚的証拠から生じる。
本研究では,モデルキャリブレーションと予測精度の関係を理論的に定式化し,グリージー復号化に十分な条件を導出する。
大規模な実験は、複数のベンチマークにわたる確率的サンプリングよりもグリーディ復号の方が優れているという実証的な証拠を提供する。
さらに,マルチモーダル推論のシナリオにおいて,確率的サンプリングと標準グリージー復号の両方に優れるReasoning ModelsのGreedy Decodingを提案する。
総じて, MLLM における LLM の復号化に注意し, グリージー復号化はVQA にとって効率的かつ強力な既定値であることを示す。
関連論文リスト
- Locally Confident, Globally Stuck: The Quality-Exploration Dilemma in Diffusion Language Models [52.61023005303122]
低信頼度再マッシングは、誘導配列分布のエントロピーを制約しながら、品質のプロキシを改善することを示す。
我々は,デコード時に,この分布をほぼ対象とする簡易なインディペンデント・ハスティングス・サンプリング器を開発した。
論文 参考訳(メタデータ) (2026-04-01T02:01:30Z) - Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models [78.68818219506313]
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
論文 参考訳(メタデータ) (2026-03-25T22:20:25Z) - Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文 参考訳(メタデータ) (2025-12-19T03:01:59Z) - Efficient semantic uncertainty quantification in language models via diversity-steered sampling [46.23327887393273]
本稿では,デコード中に意味的に冗長な出力を回避できるダイバーシティステアリング・サンプリング手法を提案する。
主要なアイデアは、モデルの提案分布に連続的な意味-類似性ペナルティを注入することである。
モジュラーであり、ベースLSMへの勾配アクセスを必要としないため、このフレームワークは不確実性評価のためのドロップインエンハンスメントとして機能することを約束している。
論文 参考訳(メタデータ) (2025-10-24T10:06:21Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Semantic uncertainty in advanced decoding methods for LLM generation [35.31962554915952]
本研究では,大規模言語モデル(LLM)における意味的不確実性について検討した。
モデル出力の多様性と信頼性の両方に異なる復号戦略がどう影響するかを分析する。
論文 参考訳(メタデータ) (2025-06-17T10:09:29Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。