Fugu-MT 論文翻訳(概要): A Close Look into the Calibration of Pre-trained Language Models

論文の概要: A Close Look into the Calibration of Pre-trained Language Models

arxiv url: http://arxiv.org/abs/2211.00151v1
Date: Mon, 31 Oct 2022 21:31:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 13:08:41.273636
Title: A Close Look into the Calibration of Pre-trained Language Models
Title（参考訳）: 事前学習した言語モデルの校正について
Authors: Yangyi Chen, Lifan Yuan, Ganqu Cui, Zhiyuan Liu, Heng Ji
Abstract要約: トレーニングにおけるPLMの校正性能の動的変化について検討する。 PLMは、継続的な信頼の高まりによって証明されるように、トレーニングにおいて校正を受けることを学ばない。また,既存のキャリブレーション手法が過信問題を緩和する効果についても検討した。
参考スコア（独自算出の注目度）: 56.998539510508515
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-trained language models (PLMs) achieve remarkable performance on many downstream tasks, but may fail in giving reliable estimates of their predictive uncertainty. Given the lack of a comprehensive understanding of PLMs calibration, we take a close look into this new research problem, aiming to answer two questions: (1) Do PLMs learn to become calibrated in the training process? (2) How effective are existing calibration methods? For the first question, we conduct fine-grained control experiments to study the dynamic change in PLMs' calibration performance in training. We consider six factors as control variables, including dataset difficulty, available training samples, training steps, the number of tunable parameters, model scale, and pretraining. In experiments, we observe a consistent change in calibration performance across six factors. We find that PLMs don't learn to become calibrated in training, evidenced by the continual increase in confidence, no matter the predictions are correct or not. We highlight that our finding presents some contradiction with two established conclusions: (a) Larger PLMs are more calibrated; (b) Pretraining improves model calibration. Next, we study the effectiveness of existing calibration methods in mitigating the overconfidence issue, in both in-distribution and various out-of-distribution settings. Besides unlearnable calibration methods, we adapt two recently proposed learnable methods that directly collect data to train models to have reasonable confidence estimations. Also, we propose extended learnable methods based on existing ones to further improve or maintain PLMs calibration without sacrificing the original task performance. Experimental results show that learnable methods significantly reduce PLMs' confidence in wrong predictions, and our methods exhibit superior performance compared with previous methods.
Abstract（参考訳）: 事前訓練された言語モデル(PLM)は、多くの下流タスクにおいて顕著な性能を達成するが、予測の不確かさを確実に見積もることに失敗する。 PLMの校正に関する包括的理解が欠如していることを踏まえ、この新たな研究課題を詳しく検討し、(1)PLMはトレーニング過程において校正を習うかという2つの疑問に答える。 2)既存の校正方法はどの程度効果的か? まず,訓練におけるplmsのキャリブレーション性能の動的変化を調べるために,細粒度制御実験を行う。データセットの難易度、利用可能なトレーニングサンプル、トレーニングステップ、チューニング可能なパラメータの数、モデルスケール、事前トレーニングを含む6つの要因を制御変数として検討する。実験では,6因子の校正性能が一貫した変化を観察した。 PLMは、予測が正しいかどうかに関わらず、信頼の連続的な増加によって証明される訓練において校正されることを学ばない。我々の発見は2つの確定した結論と矛盾する点を強調している。 (a)より大型のPLMは校正される。 b)事前訓練はモデルの校正を改善する。次に,既存のキャリブレーション手法による過信問題を緩和する手法の有効性について検討した。学習不可能なキャリブレーション法に加えて、モデルを直接収集して適切な信頼度を推定する2つの学習可能な手法を適用する。また,従来のタスク性能を犠牲にすることなく,PLMのキャリブレーションをさらに改善・維持するための学習可能な拡張手法を提案する。実験の結果,学習可能な手法は誤り予測に対するplmsの信頼度を著しく低下させ,従来の手法よりも優れた性能を示すことがわかった。

関連論文リスト

Your Pre-trained LLM is Secretly an Unsupervised Confidence Calibrator [20.597317601065605]
ポストトレーニングされた言語モデル(PoLM)は、しばしば過剰な自信に悩まされ、正しい出力と間違った出力の両方に高い信頼を割り当てる。 PoLMの校正における大きな障害は、個々の下流タスクのためのラベル付きデータの不足である。本稿では,時間後信頼度校正におけるパラメータを最適化するために,DACA(Disagreement-Aware Confidence Alignment)を提案する。
論文参考訳（メタデータ） (2025-05-22T13:55:39Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Feature Clipping for Uncertainty Calibration [24.465567005078135]
現代のディープニューラルネットワーク(DNN)は、しばしば過剰な自信に悩まされ、誤校正につながる。この問題に対処するために,特徴クリッピング(FC)と呼ばれるポストホックキャリブレーション手法を提案する。 FCは特定の閾値に特徴値をクリップし、高い校正誤差サンプルのエントロピーを効果的に増加させる。
論文参考訳（メタデータ） (2024-10-16T06:44:35Z)
Does Alignment Tuning Really Break LLMs' Internal Confidence? [5.893124686141782]
大規模言語モデル(LLM)は目覚ましい進歩を見せているが、実際の応用には信頼性の高い校正が必要である。本研究は, モデル, キャリブレーション指標, タスク, 信頼抽出方法の4次元にわたるLCMのキャリブレーション劣化の包括的解析を行う。
論文参考訳（メタデータ） (2024-08-31T05:12:36Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Making Pre-trained Language Models both Task-solvers and Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文参考訳（メタデータ） (2023-07-21T02:51:41Z)
Bag of Tricks for In-Distribution Calibration of Pretrained Transformers [8.876196316390493]
プレトレーニング言語モデル(PLM)の信頼性校正に関する実証的研究について述べる。トレーニングセットに過度に適合したアンサンブルモデルは,サブパーキャリブレーション性能を示す。校正手法を組み合わせた校正PLM(CALL)を提案する。
論文参考訳（メタデータ） (2023-02-13T21:11:52Z)
Calibrated and Sharp Uncertainties in Deep Learning via Density Estimation [10.209143402485406]
本稿では, キャリブレーションが重要であり, 維持が容易であることを論じる。校正されたモデルを生成する再校正に基づく簡単なトレーニング手順を導入し、全体的な性能を犠牲にしない。
論文参考訳（メタデータ） (2021-12-14T06:19:05Z)
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか? 我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文参考訳（メタデータ） (2020-12-02T03:53:13Z)
Uncertainty Quantification and Deep Ensembles [79.4957965474334]
ディープアンサンブルが必ずしもキャリブレーション特性の改善につながるとは限らないことを示す。そこで本研究では,混成正規化などの現代的な手法と併用して標準アンサンブル法を用いることで,キャリブレーションの少ないモデルが得られることを示す。このテキストは、データが不足しているときにディープラーニングを活用するために、最も単純で一般的な3つのアプローチの相互作用を調べる。
論文参考訳（メタデータ） (2020-07-17T07:32:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。