論文の概要: Calibrating Language Models with Adaptive Temperature Scaling
- arxiv url: http://arxiv.org/abs/2409.19817v1
- Date: Sun, 29 Sep 2024 22:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:46.090520
- Title: Calibrating Language Models with Adaptive Temperature Scaling
- Title(参考訳): 適応的温度スケーリングによる言語モデルの校正
- Authors: Johnathan Xie, Annie S. Chen, Yoonho Lee, Eric Mitchell, Chelsea Finn,
- Abstract要約: 本稿では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を紹介する。
ATSは、以前のキャリブレーション法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善する。
- 参考スコア(独自算出の注目度): 58.056023173579625
- License:
- Abstract: The effectiveness of large language models (LLMs) is not only measured by their ability to generate accurate outputs but also by their calibration-how well their confidence scores reflect the probability of their outputs being correct. While unsupervised pre-training has been shown to yield LLMs with well-calibrated conditional probabilities, recent studies have shown that after fine-tuning with reinforcement learning from human feedback (RLHF), the calibration of these models degrades significantly. In this work, we introduce Adaptive Temperature Scaling (ATS), a post-hoc calibration method that predicts a temperature scaling parameter for each token prediction. The predicted temperature values adapt based on token-level features and are fit over a standard supervised fine-tuning (SFT) dataset. The adaptive nature of ATS addresses the varying degrees of calibration shift that can occur after RLHF fine-tuning. ATS improves calibration by over 10-50% across three downstream natural language evaluation benchmarks compared to prior calibration methods and does not impede performance improvements from RLHF.
- Abstract(参考訳): 大規模言語モデル(LLM)の有効性は、正確な出力を生成する能力だけでなく、その信頼性スコアが正しい出力の確率を如何に反映しているかによって測定される。
教師なしプレトレーニングでは条件付き確率のLLMが得られることが示されているが、最近の研究では、人間からのフィードバック(RLHF)からの強化学習による微調整により、これらのモデルの校正が著しく低下することが示されている。
本研究では,各トークンの温度スケーリングパラメータを予測するポストホックキャリブレーション法であるAdaptive Temperature Scaling (ATS)を導入する。
予測温度値はトークンレベルの特徴に基づいて適応し、標準教師付き微調整(SFT)データセットに適合する。
ATSの適応性は、RLHF微調整後に起こりうる様々なキャリブレーションシフトに対処する。
ATSは、従来のキャリブレーション手法と比較して、3つの下流自然言語評価ベンチマークで10-50%以上のキャリブレーションを改善し、RLHFの性能改善を阻害しない。
関連論文リスト
- C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Preserving Pre-trained Features Helps Calibrate Fine-tuned Language
Models [23.881825575095945]
大規模事前学習型言語モデル(PLM)は、微調整により自然言語理解(NLU)タスクに強い性能を示す。
しかし、微調整されたモデルは、特にドメイン外設定において、過度に自信過剰な予測に悩まされている。
本研究では,PLMがマスキング言語モデリングタスクにおいて,ドメインシフトの下で頑健な予測信頼度を有することを実証する。
事前学習した特徴の保存は、微調整言語モデルの校正を改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:35:31Z) - A Close Look into the Calibration of Pre-trained Language Models [56.998539510508515]
事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
論文 参考訳(メタデータ) (2022-10-31T21:31:07Z) - Sample-dependent Adaptive Temperature Scaling for Improved Calibration [95.7477042886242]
ニューラルネットワークの誤りを補うポストホックアプローチは、温度スケーリングを実行することだ。
入力毎に異なる温度値を予測し、信頼度と精度のミスマッチを調整することを提案する。
CIFAR10/100およびTiny-ImageNetデータセットを用いて,ResNet50およびWideResNet28-10アーキテクチャ上で本手法をテストする。
論文 参考訳(メタデータ) (2022-07-13T14:13:49Z) - Revisiting Calibration for Question Answering [16.54743762235555]
従来のキャリブレーション評価はモデル信頼性の有用性を反映していないと論じる。
モデルが誤った予測に低信頼を割り当て、正しい予測に高信頼を割り当てているかどうかをよりよく把握する新しい校正基準であるMacroCEを提案する。
論文 参考訳(メタデータ) (2022-05-25T05:49:56Z) - T-Cal: An optimal test for the calibration of predictive models [49.11538724574202]
有限検証データセットを用いた予測モデルの誤校正を仮説検証問題として検討する。
誤校正の検出は、クラスの条件付き確率が予測の十分滑らかな関数である場合にのみ可能である。
我々は、$ell$-Expected Error(ECE)のデバイアスドプラグイン推定器に基づくキャリブレーションのためのミニマックステストであるT-Calを提案する。
論文 参考訳(メタデータ) (2022-03-03T16:58:54Z) - Parameterized Temperature Scaling for Boosting the Expressive Power in
Post-Hoc Uncertainty Calibration [57.568461777747515]
我々は新しいキャリブレーション手法であるパラメタライズド温度スケーリング(PTS)を導入する。
最新のポストホックキャリブレータの精度保持性能は、その本質的な表現力によって制限されることを実証します。
当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-24T10:18:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。