論文の概要: Reasoning Models Better Express Their Confidence
- arxiv url: http://arxiv.org/abs/2505.14489v1
- Date: Tue, 20 May 2025 15:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.460131
- Title: Reasoning Models Better Express Their Confidence
- Title(参考訳): 推論モデルは信頼を表現しやすくする
- Authors: Dongkeun Yoon, Seungone Kim, Sohee Yang, Sunkyoung Kim, Soyeon Kim, Yongil Kim, Eunbi Choi, Yireun Kim, Minjoon Seo,
- Abstract要約: 大規模言語モデル(LLM)は、信頼度を正確に伝達できないことが多いため、いつ間違っているのかを判断したり、信頼性を制限したりするのは難しい。
本研究では,CoT推論に係わる推論モデル-LLMが,問題解決だけでなく,その信頼性を正確に表現する上で,優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 33.72935464539185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their strengths, large language models (LLMs) often fail to communicate their confidence accurately, making it difficult to assess when they might be wrong and limiting their reliability. In this work, we demonstrate that reasoning models-LLMs that engage in extended chain-of-thought (CoT) reasoning-exhibit superior performance not only in problem-solving but also in accurately expressing their confidence. Specifically, we benchmark six reasoning models across six datasets and find that they achieve strictly better confidence calibration than their non-reasoning counterparts in 33 out of the 36 settings. Our detailed analysis reveals that these gains in calibration stem from the slow thinking behaviors of reasoning models-such as exploring alternative approaches and backtracking-which enable them to adjust their confidence dynamically throughout their CoT, making it progressively more accurate. In particular, we find that reasoning models become increasingly better calibrated as their CoT unfolds, a trend not observed in non-reasoning models. Moreover, removing slow thinking behaviors from the CoT leads to a significant drop in calibration. Lastly, we show that these gains are not exclusive to reasoning models-non-reasoning models also benefit when guided to perform slow thinking via in-context learning.
- Abstract(参考訳): その強みにもかかわらず、大きな言語モデル(LLM)は信頼度を正確に伝達することができず、いつ間違っているかを評価したり、信頼性を制限したりするのは難しい。
本研究では,CoT推論に係わる推論モデル-LLMが,問題解決だけでなく,その信頼性を正確に表現する上で,優れた性能を示すことを示す。
具体的には、6つのデータセットに対して6つの推論モデルをベンチマークし、36設定中33設定の非推論モデルよりも正確で信頼性の高いキャリブレーションを実現していることを確認した。
より詳細な分析の結果,これらは推論モデルの思考行動が遅いことに起因することが判明した。例えば,代替手法やバックトラッキングなどにより,CoT全体を通して信頼度を動的に調整し,段階的に精度が向上する。
特に,非推論モデルでは観測されない傾向であるCoTが展開するにつれて,推論モデルのキャリブレーションが向上することが判明した。
さらに、CoTからゆっくりとした思考行動を取り除くことで、キャリブレーションが大幅に低下する。
最後に、これらの利得は推論モデルに限ったものではなく、非推論モデルは、文脈内学習を通してゆっくり考えることをガイドされたときにも有益であることを示す。
関連論文リスト
- Do Reasoning Models Show Better Verbalized Calibration? [19.776645881640178]
長い推理トレース上での微調整蒸留を指導したLRMのキャリブレーション特性について検討した。
以上の結果から,LEMは複雑な推論タスクにおいて,精度と信頼性の校正の両方において,命令調整モデルよりも有意に優れていた。
本研究は,LLMの信頼性・自己認識出力生成能力を向上させる上で,推論指向のRLトレーニングが潜在的に重要な役割を担っていることを示すものである。
論文 参考訳(メタデータ) (2025-04-09T03:58:19Z) - Calibrating LLM Confidence with Semantic Steering: A Multi-Prompt Aggregation Framework [11.872504642312705]
大規模言語モデル(LLM)は、しばしば不一致の信頼スコアを示し、予測の信頼性を過大評価する。
本稿では,信頼度評価,信頼度評価,回答選択という3つの要素を含む新しいフレームワークを提案する。
提案手法を7つのベンチマークで評価し,信頼性校正と故障検出のタスクにおいて,キャリブレーション指標の基準線を一貫して上回る結果を得た。
論文 参考訳(メタデータ) (2025-03-04T18:40:49Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。
既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。
高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
本稿では,モデルサイズ,緩和要因,質問タイプが信頼性アライメントに与える影響について検討する。
本稿では,過信度を計測し,複数選択形式が誤校正を悪化させるかどうかを検討するための評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。