論文の概要: The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16728v1
- Date: Tue, 17 Mar 2026 16:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.399336
- Title: The Cost of Reasoning: Chain-of-Thought Induces Overconfidence in Vision-Language Models
- Title(参考訳): 推論のコスト:チェーン・オブ・サートはビジョン・ランゲージモデルにおける過信を誘発する
- Authors: Robert Welch, Emir Konuk, Kevin Smith,
- Abstract要約: 推論は、ほとんどの不確実性推定の品質を一貫して低下させることを示す。
暗黙の回答条件付けを主要なメカニズムとみなす。
対照的に、合意に基づく一貫性は堅牢であり、しばしば推論の下で改善される。
- 参考スコア(独自算出の注目度): 1.5001933823689926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are increasingly deployed in high-stakes settings where reliable uncertainty quantification (UQ) is as important as predictive accuracy. Extended reasoning via chain-of-thought (CoT) prompting or reasoning-trained models has become ubiquitous in modern VLM pipelines, yet its effect on UQ reliability remains poorly understood. We show that reasoning consistently degrades the quality of most uncertainty estimates, even when it improves task accuracy. We identify implicit answer conditioning as the primary mechanism: as reasoning traces converge on a conclusion before the final answer is generated, token probabilities increasingly reflect consistency with the model's own reasoning trace rather than uncertainty about correctness. In effect, the model becomes overconfident in its answer. In contrast, agreement-based consistency remains robust and often improves under reasoning, making it a practical choice for uncertainty estimation in reasoning-enabled VLMs.
- Abstract(参考訳): 視覚言語モデル (VLM) は、信頼性のある不確実性定量化 (UQ) が予測精度と同じくらい重要となる、ハイテイクな設定でますます展開されている。
チェーン・オブ・シンクレット(CoT)による拡張推論は、現代のVLMパイプラインでは広く普及しているが、UQ信頼性への影響はよく分かっていない。
我々は,タスクの精度が向上しても,推論がほとんどの不確実性見積の品質を継続的に低下させることを示す。
我々は、暗黙の答え条件付けを主要なメカニズムとして認識する: 最終的な答えが生成される前に、推論トレースが結論に収束するにつれて、トークン確率は、正確性に関する不確実性よりも、モデル自身の推論トレースとの整合性をますます反映する。
事実上、モデルはその答えにおいて過信される。
対照的に、合意に基づく一貫性は頑健であり、しばしば推論の下で改善され、推論可能なVLMにおける不確実性推定の実践的な選択となる。
関連論文リスト
- On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。
本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。
我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文 参考訳(メタデータ) (2026-02-14T01:07:45Z) - On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-13T01:12:00Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。