論文の概要: Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach
- arxiv url: http://arxiv.org/abs/2505.01997v2
- Date: Sat, 07 Jun 2025 02:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.051806
- Title: Restoring Calibration for Aligned Large Language Models: A Calibration-Aware Fine-Tuning Approach
- Title(参考訳): 調整された大言語モデルに対する校正の復元: 校正を意識した微調整アプローチ
- Authors: Jiancong Xiao, Bojian Hou, Zhanliang Wang, Ruochen Jin, Qi Long, Weijie J. Su, Li Shen,
- Abstract要約: 大言語モデル(LLM)の成功のための重要な技術である選好アライメント
本稿では,リコメンデーションアライメントがキャリブレーションになぜ影響するか,この問題にどう対処するかを検討する。
- 参考スコア(独自算出の注目度): 29.069314998955676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key technologies for the success of Large Language Models (LLMs) is preference alignment. However, a notable side effect of preference alignment is poor calibration: while the pre-trained models are typically well-calibrated, LLMs tend to become poorly calibrated after alignment with human preferences. In this paper, we investigate why preference alignment affects calibration and how to address this issue. For the first question, we observe that the preference collapse issue in alignment undesirably generalizes to the calibration scenario, causing LLMs to exhibit overconfidence and poor calibration. To address this, we demonstrate the importance of fine-tuning with domain-specific knowledge to alleviate the overconfidence issue. To further analyze whether this affects the model's performance, we categorize models into two regimes: calibratable and non-calibratable, defined by bounds of Expected Calibration Error (ECE). In the calibratable regime, we propose a calibration-aware fine-tuning approach to achieve proper calibration without compromising LLMs' performance. However, as models are further fine-tuned for better performance, they enter the non-calibratable regime. For this case, we develop an EM-algorithm-based ECE regularization for the fine-tuning loss to maintain low calibration error. Extensive experiments validate the effectiveness of the proposed methods.
- Abstract(参考訳): LLM(Large Language Models)の成功の鍵となる技術のひとつは、好みのアライメントである。
しかし、嗜好調整の顕著な副作用はキャリブレーションが不十分であり、事前訓練されたモデルは通常、よく校正されているが、LLMは人間の嗜好と整合した後にキャリブレーションが不十分になる傾向がある。
本稿では,リコメンデーションアライメントがキャリブレーションになぜ影響するか,この問題にどう対処するかを検討する。
最初の質問では、アライメントにおける選好崩壊問題はキャリブレーションのシナリオを好ましくは一般化し、LCMは過度に自信を持ち、キャリブレーションの低さを示す。
これを解決するために、過剰な自信の問題を軽減するためにドメイン固有の知識を微調整することの重要性を実証する。
さらに,モデルの性能に影響を及ぼすかどうかを解析するために,予測校正誤差(ECE)の境界によって定義される校正可能と非校正可能の2つに分類する。
LLMの性能を損なうことなく適切なキャリブレーションを実現するためのキャリブレーションを考慮した微調整手法を提案する。
しかし、モデルの性能向上のためにさらに微調整されているため、それらは非可積分状態に入る。
本稿では,EM-algorithm-based ECE regularization for the fine-tuning loss to maintain low calibration error。
大規模実験により提案手法の有効性が検証された。
関連論文リスト
- Unconstrained Monotonic Calibration of Predictions in Deep Ranking Systems [29.90543561470141]
ランク付けモデルの絶対値は、特定の下流タスクに必須である。
既存のキャリブレーション手法では、元の予測を調整するために順序保存特性を持つ事前定義された変換関数を用いるのが一般的である。
本研究では,任意の単調関数を学習可能なunconstrained Monotonic Neural Network (UMNN) を用いたキャリブレータの実装を提案する。
このアプローチはキャリブレータの制約を著しく緩和し、元の予測を過度に歪ませることを避けながら、柔軟性と表現性を向上する。
論文 参考訳(メタデータ) (2025-04-19T09:35:11Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Adaptive Calibrator Ensemble for Model Calibration under Distribution
Shift [23.794897699193875]
アダプティブ・キャリブレータ・アンサンブル(ACE)は、通常はキャリブレーション・セットよりも難しいOODデータセットをキャリブレーション・セットに分類する。
ACEは一般に、一連のOODベンチマークにおけるいくつかの最先端のキャリブレーション方式の性能を改善している。
論文 参考訳(メタデータ) (2023-03-09T15:22:02Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Meta-Calibration: Learning of Model Calibration Using Differentiable
Expected Calibration Error [46.12703434199988]
我々は、キャリブレーション品質を直接最適化できる、期待キャリブレーション誤差(DECE)のための新しい微分可能なサロゲートを導入する。
また、DECEを用いて検証セットの校正を最適化するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-17T15:47:50Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z) - Unsupervised Calibration under Covariate Shift [92.02278658443166]
ドメインシフト下でのキャリブレーションの問題を導入し、それに対処するための重要サンプリングに基づくアプローチを提案する。
実世界のデータセットと合成データセットの両方において,本手法の有効性を評価し検討した。
論文 参考訳(メタデータ) (2020-06-29T21:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。