論文の概要: Don't Think Twice! Over-Reasoning Impairs Confidence Calibration
- arxiv url: http://arxiv.org/abs/2508.15050v1
- Date: Wed, 20 Aug 2025 20:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.086441
- Title: Don't Think Twice! Over-Reasoning Impairs Confidence Calibration
- Title(参考訳): 心配しないで! 過剰推論は信頼の校正を損なう
- Authors: Romain Lacombe, Kerrie Wu, Eddie Dilworth,
- Abstract要約: 我々は,推論能力と予算が信頼性評価の精度に与える影響を体系的に評価する。
推論予算の増大はキャリブレーションを改善するのではなく、常に障害となる。
以上の結果から,情報アクセスは深度や推測予算ではなく,信頼性校正の改善に重要なボトルネックとなる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models deployed as question answering tools require robust calibration to avoid overconfidence. We systematically evaluate how reasoning capabilities and budget affect confidence assessment accuracy, using the ClimateX dataset (Lacombe et al., 2023) and expanding it to human and planetary health. Our key finding challenges the "test-time scaling" paradigm: while recent reasoning LLMs achieve 48.7% accuracy in assessing expert confidence, increasing reasoning budgets consistently impairs rather than improves calibration. Extended reasoning leads to systematic overconfidence that worsens with longer thinking budgets, producing diminishing and negative returns beyond modest computational investments. Conversely, search-augmented generation dramatically outperforms pure reasoning, achieving 89.3% accuracy by retrieving relevant evidence. Our results suggest that information access, rather than reasoning depth or inference budget, may be the critical bottleneck for improved confidence calibration of knowledge-intensive tasks.
- Abstract(参考訳): 質問応答ツールとしてデプロイされる大規模言語モデルは、過信を避けるために堅牢な校正が必要である。
解析能力と予算が信頼性評価の精度にどのように影響するかを系統的に評価し、ClimateXデータセット(Lacombe et al , 2023)を用いて人や惑星の健康に拡張した。
我々の重要な発見は、"テストタイムスケーリング"のパラダイムに挑戦している。最近の推論LPMは、専門家の信頼度を評価する上で48.7%の精度を達成しているのに対して、推論予算はキャリブレーションを改善するよりも一貫して不足している。
拡張された推論は、より長い思考予算で悪化する体系的な過信を招き、控えめな計算投資を超えた減少と負のリターンを生み出す。
逆に、探索強化世代は純粋な推論を劇的に上回り、関連する証拠を回収することで89.3%の精度を達成している。
以上の結果から,情報アクセスは知識集約型タスクの信頼度校正に欠かせないボトルネックとなる可能性が示唆された。
関連論文リスト
- Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation? [26.336947440529713]
名前付きエンティティ認識(NER)タスクにおけるデータの増大が信頼度校正と不確実性評価に与える影響について検討する。
また,データ拡張により,言語間および言語間におけるキャリブレーションや不確実性が向上することを示す。
また,増量によりキャリブレーションや不確実性がさらに向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-02T08:49:43Z) - Revisiting Confidence Estimation: Towards Reliable Failure Prediction [53.79160907725975]
多くの信頼度推定法は誤分類誤りを検出するのに有害である。
本稿では, 最先端の故障予測性能を示す平坦な最小値を求めることにより, 信頼性ギャップを拡大することを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:44:14Z) - Towards Calibrated Deep Clustering Network [60.71776081164377]
ディープクラスタリングでは、特定のクラスタに属するサンプルに対する推定信頼度はその実際の予測精度を大きく上回る。
推定された信頼度と実際の精度を効果的にキャリブレーションできる新しいデュアルヘッド(キャリブレーションヘッドとクラスタリングヘッド)深層クラスタリングモデルを提案する。
提案したキャリブレーション深層クラスタリングモデルでは, キャリブレーション誤差の予測値において, 最先端の深部クラスタリング手法を平均5倍に越えるだけでなく, クラスタリング精度も大幅に向上する。
論文 参考訳(メタデータ) (2024-03-04T11:23:40Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - Did You Mean...? Confidence-based Trade-offs in Semantic Parsing [52.28988386710333]
タスク指向の構文解析において、キャリブレーションモデルが共通のトレードオフのバランスを取るのにどのように役立つかを示す。
次に、信頼性スコアがユーザビリティと安全性のトレードオフを最適化する上で、どのように役立つかを検証します。
論文 参考訳(メタデータ) (2023-03-29T17:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。