論文の概要: A Close Look into the Calibration of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2211.00151v3
- Date: Mon, 8 May 2023 05:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:05:56.979986
- Title: A Close Look into the Calibration of Pre-trained Language Models
- Title(参考訳): 事前学習した言語モデルの校正について
- Authors: Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji
- Abstract要約: 事前訓練された言語モデル(PLM)は、予測の不確かさを確実に見積もることに失敗する可能性がある。
トレーニングにおけるPLMの校正性能の動的変化について検討する。
最近提案された2つの学習可能な手法を拡張して、モデルを直接収集し、合理的な信頼度を推定する。
- 参考スコア(独自算出の注目度): 56.998539510508515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models (PLMs) may fail in giving reliable estimates of
their predictive uncertainty. We take a close look into this problem, aiming to
answer two questions: (1) Do PLMs learn to become calibrated in the training
process? (2) How effective are existing calibration methods? For the first
question, we conduct fine-grained control experiments to study the dynamic
change in PLMs' calibration performance in training. We consider six factors as
control variables, including dataset difficulty, available training samples,
training steps, the number of tunable parameters, model scale, and pretraining.
We observe a consistent change in calibration performance across six factors.
We find that PLMs don't learn to become calibrated in training, evidenced by
the continual increase in confidence, no matter whether the predictions are
correct or not. We highlight that our finding somewhat contradicts two
established conclusions: (a) Larger PLMs are more calibrated; (b) Pretraining
improves model calibration. Next, we study the effectiveness of existing
calibration methods in mitigating the overconfidence issue. Besides unlearnable
calibration methods (e.g., label smoothing), we adapt and extend two recently
proposed learnable methods that directly collect data to train models to have
reasonable confidence estimations. Experimental results show that learnable
methods significantly reduce PLMs' confidence in wrong predictions. The code is
available at \url{https://github.com/lifan-yuan/PLMCalibration}.
- Abstract(参考訳): 事前学習された言語モデル(plm)は、予測の不確実性を信頼できる見積もることに失敗する可能性がある。
この問題を詳しく検討し,(1)plmはトレーニングプロセスで校正されることを学んでいるか?
2)既存の校正方法はどの程度効果的か?
まず,訓練におけるplmsのキャリブレーション性能の動的変化を調べるために,細粒度制御実験を行う。
データセットの難易度、利用可能なトレーニングサンプル、トレーニングステップ、チューニング可能なパラメータの数、モデルスケール、事前トレーニングを含む6つの要因を制御変数として検討する。
キャリブレーション性能は6つの要因で一貫した変化を観察する。
PLMは、予測が正しいかどうかに関わらず、信頼性の持続的な増加によって証明される訓練で校正されることを学ばない。
私たちの発見は2つの確立した結論と多少矛盾している点を強調します。
(a)より大型のPLMは校正される。
b)事前訓練はモデルの校正を改善する。
次に,既存のキャリブレーション手法が過信問題を緩和する効果について検討する。
理解不能なキャリブレーション手法(ラベルの平滑化など)に加えて、私たちは最近提案された2つの学習可能な方法を適用して拡張します。
実験の結果,学習可能な手法は誤り予測に対するplmsの信頼を著しく低下させることがわかった。
コードは \url{https://github.com/lifan-yuan/plmcalibration} で入手できる。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。
この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。
FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文 参考訳(メタデータ) (2024-10-16T06:44:35Z) - Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。
本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2024-08-31T05:12:36Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Bag of Tricks for In-Distribution Calibration of Pretrained Transformers [8.876196316390493]
プレトレーニング言語モデル(PLM)の信頼性校正に関する実証的研究について述べる。
トレーニングセットに過度に適合したアンサンブルモデルは,サブパーキャリブレーション性能を示す。
校正手法を組み合わせた校正PLM(CALL)を提案する。
論文 参考訳(メタデータ) (2023-02-13T21:11:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。