論文の概要: Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models
- arxiv url: http://arxiv.org/abs/2512.11998v1
- Date: Fri, 12 Dec 2025 19:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.066888
- Title: Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence In Large Language Models
- Title(参考訳): 直接信頼アライメント:大規模言語モデルにおける言語内信頼と垂直信頼のアライメント
- Authors: Glenn Zhang, Treasure Mayowa, Jason Fan, Yicheng Fu, Aaron Sandoval, Sean O'Brien, Kevin Zhu,
- Abstract要約: トークン確率から導かれるモデルの内部信頼は、その言語化された信頼とうまく一致しない。
我々は,LLMの言語的信頼と内的信頼とを一致させるために,直接信頼アライメント(DCA)を提案する。
- 参考スコア(独自算出の注目度): 6.918665116014629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Producing trustworthy and reliable Large Language Models (LLMs) has become increasingly important as their usage becomes more widespread. Calibration seeks to achieve this by improving the alignment between the model's confidence and the actual likelihood of its responses being correct or desirable. However, it has been observed that the internal confidence of a model, derived from token probabilities, is not well aligned with its verbalized confidence, leading to misleading results with different calibration methods. In this paper, we propose Direct Confidence Alignment (DCA), a method using Direct Preference Optimization to align an LLM's verbalized confidence with its internal confidence rather than ground-truth accuracy, enhancing model transparency and reliability by ensuring closer alignment between the two confidence measures. We evaluate DCA across multiple open-weight LLMs on a wide range of datasets. To further assess this alignment, we also introduce three new calibration error-based metrics. Our results show that DCA improves alignment metrics on certain model architectures, reducing inconsistencies in a model's confidence expression. However, we also show that it can be ineffective on others, highlighting the need for more model-aware approaches in the pursuit of more interpretable and trustworthy LLMs.
- Abstract(参考訳): 信頼性が高く信頼性の高いLarge Language Model(LLM)の作成は、その利用が広まるにつれて、ますます重要になってきています。
キャリブレーション(Calibration)は、モデルの信頼性と、その応答が正しいか望ましいかの実際の可能性との整合性を改善することで、これを達成しようとする。
しかし、トークン確率から導かれるモデルの内的信頼は、その言語化された信頼度とうまく一致していないことが観察されており、異なるキャリブレーション手法による誤解を招く結果となった。
本稿では,直接選好最適化(Direct Confidence Alignment, DCA)を提案し,LLMの言語的信頼度を内的信頼度に整合させる手法を提案する。
我々は,多種多様なデータセット上で,複数のオープンウェイト LLM に対して DCA を評価する。
さらに、このアライメントを評価するために、3つの新しいキャリブレーション誤差ベースのメトリクスを導入する。
以上の結果から,DCAはモデルアーキテクチャ上でのアライメントの指標を改善し,モデルの信頼性表現の不整合を低減できることが示唆された。
しかし, より解釈しやすく, 信頼性の高いLCMを追求する上で, よりモデル対応のアプローチの必要性が強調され, 他者にとって効果がないことが示唆された。
関連論文リスト
- ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation [63.49409574310576]
大規模言語モデル(LLM)は自信過剰を示し、信頼度の高いスコアを誤った予測に割り当てる。
本研究では,テキスト生成中に高精度できめ細かな信頼スコアを提供する信頼度推定手法であるFineCEを紹介する。
論文で使用されたコードとすべてのベースラインはGitHubで公開されている。
論文 参考訳(メタデータ) (2025-08-16T13:29:35Z) - Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。
モデルの内部と信頼感の一致を調査する。
分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文 参考訳(メタデータ) (2024-05-25T15:42:04Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。