論文の概要: Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis
- arxiv url: http://arxiv.org/abs/2210.04714v1
- Date: Mon, 10 Oct 2022 14:16:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:12:10.341188
- Title: Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis
- Title(参考訳): 事前学習言語モデルによる不確かさの定量化:大規模実証分析
- Authors: Yuxin Xiao, Paul Pu Liang, Umang Bhatt, Willie Neiswanger, Ruslan
Salakhutdinov, Louis-Philippe Morency
- Abstract要約: パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
- 参考スコア(独自算出の注目度): 120.9545643534454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (PLMs) have gained increasing popularity due to
their compelling prediction performance in diverse natural language processing
(NLP) tasks. When formulating a PLM-based prediction pipeline for NLP tasks, it
is also crucial for the pipeline to minimize the calibration error, especially
in safety-critical applications. That is, the pipeline should reliably indicate
when we can trust its predictions. In particular, there are various
considerations behind the pipeline: (1) the choice and (2) the size of PLM, (3)
the choice of uncertainty quantifier, (4) the choice of fine-tuning loss, and
many more. Although prior work has looked into some of these considerations,
they usually draw conclusions based on a limited scope of empirical studies.
There still lacks a holistic analysis on how to compose a well-calibrated
PLM-based prediction pipeline. To fill this void, we compare a wide range of
popular options for each consideration based on three prevalent NLP
classification tasks and the setting of domain shift. In response, we recommend
the following: (1) use ELECTRA for PLM encoding, (2) use larger PLMs if
possible, (3) use Temp Scaling as the uncertainty quantifier, and (4) use Focal
Loss for fine-tuning.
- Abstract(参考訳): 各種自然言語処理(NLP)タスクにおいて,予測性能の向上により,事前学習型言語モデル(PLM)が人気を博している。
NLPタスクのためのPLMベースの予測パイプラインを定式化する場合、特に安全クリティカルなアプリケーションにおいて、パイプラインが校正誤差を最小限に抑えることが重要である。
つまり、パイプラインはその予測をいつ信頼できるかを確実に示すべきです。
特に、パイプラインの背景には、(1)PLMの選択と(2)サイズ、(3)不確実性定量化器の選択、(4)微調整損失の選択など、さまざまな考慮事項がある。
先行研究はこれらの考察のいくつかを考察しているが、通常は実験研究の限られた範囲に基づいて結論を導き出す。
PLMベースの予測パイプラインを適切に校正する方法についての総合的な分析はいまだに欠けている。
この空白を埋めるために、我々は3つの一般的なNLP分類タスクとドメインシフトの設定に基づいて、各考慮に対する幅広い人気オプションを比較した。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
関連論文リスト
- Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Embers of Autoregression: Understanding Large Language Models Through
the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。
11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。
我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文 参考訳(メタデータ) (2023-09-24T13:35:28Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Conformal Language Modeling [63.69391255926407]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - Selection by Prediction with Conformal p-values [7.917044695538599]
本研究では,未観測結果がユーザ指定値を超える候補を選択するためのスクリーニング手順について検討する。
本研究では,任意の予測モデルをラップして候補のサブセットを生成する手法を開発した。
論文 参考訳(メタデータ) (2022-10-04T06:34:49Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Solving Multistage Stochastic Linear Programming via Regularized Linear
Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。
実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。
LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文 参考訳(メタデータ) (2021-10-07T02:36:14Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。