論文の概要: A Close Look into the Calibration of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2211.00151v1
- Date: Mon, 31 Oct 2022 21:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:08:41.273636
- Title: A Close Look into the Calibration of Pre-trained Language Models
- Title(参考訳): 事前学習した言語モデルの校正について
- Authors: Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji
- Abstract要約: トレーニングにおけるPLMの校正性能の動的変化について検討する。
PLMは、継続的な信頼の高まりによって証明されるように、トレーニングにおいて校正を受けることを学ばない。
また,既存のキャリブレーション手法が過信問題を緩和する効果についても検討した。
- 参考スコア(独自算出の注目度): 56.998539510508515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained language models (PLMs) achieve remarkable performance on many
downstream tasks, but may fail in giving reliable estimates of their predictive
uncertainty. Given the lack of a comprehensive understanding of PLMs
calibration, we take a close look into this new research problem, aiming to
answer two questions: (1) Do PLMs learn to become calibrated in the training
process? (2) How effective are existing calibration methods? For the first
question, we conduct fine-grained control experiments to study the dynamic
change in PLMs' calibration performance in training. We consider six factors as
control variables, including dataset difficulty, available training samples,
training steps, the number of tunable parameters, model scale, and pretraining.
In experiments, we observe a consistent change in calibration performance
across six factors. We find that PLMs don't learn to become calibrated in
training, evidenced by the continual increase in confidence, no matter the
predictions are correct or not. We highlight that our finding presents some
contradiction with two established conclusions: (a) Larger PLMs are more
calibrated; (b) Pretraining improves model calibration. Next, we study the
effectiveness of existing calibration methods in mitigating the overconfidence
issue, in both in-distribution and various out-of-distribution settings.
Besides unlearnable calibration methods, we adapt two recently proposed
learnable methods that directly collect data to train models to have reasonable
confidence estimations. Also, we propose extended learnable methods based on
existing ones to further improve or maintain PLMs calibration without
sacrificing the original task performance. Experimental results show that
learnable methods significantly reduce PLMs' confidence in wrong predictions,
and our methods exhibit superior performance compared with previous methods.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)は、多くの下流タスクにおいて顕著な性能を達成するが、予測の不確かさを確実に見積もることに失敗する。
PLMの校正に関する包括的理解が欠如していることを踏まえ、この新たな研究課題を詳しく検討し、(1)PLMはトレーニング過程において校正を習うかという2つの疑問に答える。
2)既存の校正方法はどの程度効果的か?
まず,訓練におけるplmsのキャリブレーション性能の動的変化を調べるために,細粒度制御実験を行う。
データセットの難易度、利用可能なトレーニングサンプル、トレーニングステップ、チューニング可能なパラメータの数、モデルスケール、事前トレーニングを含む6つの要因を制御変数として検討する。
実験では,6因子の校正性能が一貫した変化を観察した。
PLMは、予測が正しいかどうかに関わらず、信頼の連続的な増加によって証明される訓練において校正されることを学ばない。
我々の発見は2つの確定した結論と矛盾する点を強調している。
(a)より大型のPLMは校正される。
b)事前訓練はモデルの校正を改善する。
次に,既存のキャリブレーション手法による過信問題を緩和する手法の有効性について検討した。
学習不可能なキャリブレーション法に加えて、モデルを直接収集して適切な信頼度を推定する2つの学習可能な手法を適用する。
また,従来のタスク性能を犠牲にすることなく,PLMのキャリブレーションをさらに改善・維持するための学習可能な拡張手法を提案する。
実験の結果,学習可能な手法は誤り予測に対するplmsの信頼度を著しく低下させ,従来の手法よりも優れた性能を示すことがわかった。
関連論文リスト
- Improving reliability of uncertainty-aware gaze estimation with probability calibration [13.564919425738163]
現在のディープラーニングによる外見に基づく不確実性認識による視線推定モデルは、一貫性のない信頼できない不確実性推定を生成する。
本稿では,いくつかのポストホックサンプルを用いた確率校正による不確実性推定の精度向上のためのワークフローを提案する。
論文 参考訳(メタデータ) (2025-01-24T19:33:55Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。
この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。
FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文 参考訳(メタデータ) (2024-10-16T06:44:35Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Bag of Tricks for In-Distribution Calibration of Pretrained Transformers [8.876196316390493]
プレトレーニング言語モデル(PLM)の信頼性校正に関する実証的研究について述べる。
トレーニングセットに過度に適合したアンサンブルモデルは,サブパーキャリブレーション性能を示す。
校正手法を組み合わせた校正PLM(CALL)を提案する。
論文 参考訳(メタデータ) (2023-02-13T21:11:52Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。
そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。
このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文 参考訳(メタデータ) (2020-07-17T07:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。