論文の概要: Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator
- arxiv url: http://arxiv.org/abs/2505.16690v1
- Date: Thu, 22 May 2025 13:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.341068
- Title: Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator
- Title(参考訳): 事前訓練済みのLLMは、秘密裏に監督されていない信頼度校正器
- Authors: Beier Luo, Shuoyuan Wang, Yixuan Li, Hongxin Wei,
- Abstract要約: ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。
PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。
本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
- 参考スコア(独自算出の注目度): 20.597317601065605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training of large language models is essential for adapting pre-trained language models (PLMs) to align with human preferences and downstream tasks. While PLMs typically exhibit well-calibrated confidence, post-trained language models (PoLMs) often suffer from over-confidence, assigning high confidence to both correct and incorrect outputs, which can undermine reliability in critical applications. A major obstacle in calibrating PoLMs is the scarcity of labeled data for individual downstream tasks. To address this, we propose Disagreement-Aware Confidence Alignment (DACA), a novel unsupervised method to optimize the parameters (e.g., temperature $\tau$) in post-hoc confidence calibration. Our method is motivated by the under-confidence issue caused by prediction disagreement between the PLM and PoLM while aligning their confidence via temperature scaling. Theoretically, the PLM's confidence underestimates PoLM's prediction accuracy on disagreement examples, causing a larger $\tau$ and producing under-confident predictions. DACA mitigates this by selectively using only agreement examples for calibration, effectively decoupling the influence of disagreement. In this manner, our method avoids an overly large $\tau$ in temperature scaling caused by disagreement examples, improving calibration performance. Extensive experiments demonstrate the effectiveness of our method, improving the average ECE of open-sourced and API-based LLMs (e.g. GPT-4o) by up to 15.08$\%$ on common benchmarks.
- Abstract(参考訳): 大規模言語モデルのポストトレーニングは、事前訓練された言語モデル(PLM)を人間の好みや下流のタスクに合わせて適応するために不可欠である。
PLMは、よく校正された信頼を示すが、ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当て、重要なアプリケーションでは信頼性を損なう。
PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。
そこで本稿では, 自己認識型信頼性アライメント(DACA, Disagreement-Aware Confidence Alignment)を提案する。
提案手法は, PLMとPoLM間の予測不一致に起因する不確実性問題に動機付けられ, 温度スケーリングによる信頼性の整合が図られた。
理論的には、PLMの信頼性はPoLMの予測精度を不一致の例で過小評価し、より大きな$\tau$を発生させ、信頼性の低い予測を生み出す。
DACAは、調整のための合意例のみを選択的に使用することでこれを緩和し、不一致の影響を効果的に分離する。
このようにして、不一致例による温度スケーリングの過大な$\tau$を回避し、校正性能を向上する。
提案手法の有効性を実証し,オープンソースおよびAPIベースのLCM (eg GPT-4o) の平均 ECE を15.08$\% まで改善した。
関連論文リスト
- Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales [29.33581578047835]
SaySelfは、大規模言語モデルに、より正確なきめ細かな信頼推定を表現するためのトレーニングフレームワークである。
さらに、SaySelf は LLM に対して、パラメトリック知識のギャップを明確に識別する自己反射的合理性を生成するよう指示する。
生成した自己反射的理性は合理的であり、キャリブレーションにさらに貢献できることを示す。
論文 参考訳(メタデータ) (2024-05-31T16:21:16Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z) - Just Ask for Calibration: Strategies for Eliciting Calibrated Confidence
Scores from Language Models Fine-Tuned with Human Feedback [91.22679548111127]
信頼できる現実世界の予測システムは、よく校正された信頼スコアを生成するべきである。
出力トークンとして出力される言語的信頼度は、通常、モデルの条件付き確率よりも良く校正されていることを示す。
論文 参考訳(メタデータ) (2023-05-24T10:12:33Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。