Fugu-MT 論文翻訳(概要): Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis

論文の概要: Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis

arxiv url: http://arxiv.org/abs/2210.04714v1
Date: Mon, 10 Oct 2022 14:16:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 14:12:10.341188
Title: Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis
Title（参考訳）: 事前学習言語モデルによる不確かさの定量化:大規模実証分析
Authors: Yuxin Xiao, Paul Pu Liang, Umang Bhatt, Willie Neiswanger, Ruslan Salakhutdinov, Louis-Philippe Morency
Abstract要約: パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。 1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
参考スコア（独自算出の注目度）: 120.9545643534454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained language models (PLMs) have gained increasing popularity due to their compelling prediction performance in diverse natural language processing (NLP) tasks. When formulating a PLM-based prediction pipeline for NLP tasks, it is also crucial for the pipeline to minimize the calibration error, especially in safety-critical applications. That is, the pipeline should reliably indicate when we can trust its predictions. In particular, there are various considerations behind the pipeline: (1) the choice and (2) the size of PLM, (3) the choice of uncertainty quantifier, (4) the choice of fine-tuning loss, and many more. Although prior work has looked into some of these considerations, they usually draw conclusions based on a limited scope of empirical studies. There still lacks a holistic analysis on how to compose a well-calibrated PLM-based prediction pipeline. To fill this void, we compare a wide range of popular options for each consideration based on three prevalent NLP classification tasks and the setting of domain shift. In response, we recommend the following: (1) use ELECTRA for PLM encoding, (2) use larger PLMs if possible, (3) use Temp Scaling as the uncertainty quantifier, and (4) use Focal Loss for fine-tuning.
Abstract（参考訳）: 各種自然言語処理(NLP)タスクにおいて,予測性能の向上により,事前学習型言語モデル(PLM)が人気を博している。 NLPタスクのためのPLMベースの予測パイプラインを定式化する場合、特に安全クリティカルなアプリケーションにおいて、パイプラインが校正誤差を最小限に抑えることが重要である。つまり、パイプラインはその予測をいつ信頼できるかを確実に示すべきです。特に、パイプラインの背景には、(1)PLMの選択と(2)サイズ、(3)不確実性定量化器の選択、(4)微調整損失の選択など、さまざまな考慮事項がある。先行研究はこれらの考察のいくつかを考察しているが、通常は実験研究の限られた範囲に基づいて結論を導き出す。 PLMベースの予測パイプラインを適切に校正する方法についての総合的な分析はいまだに欠けている。この空白を埋めるために、我々は3つの一般的なNLP分類タスクとドメインシフトの設定に基づいて、各考慮に対する幅広い人気オプションを比較した。 1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。

関連論文リスト

Prediction-Powered Adaptive Shrinkage Estimation [0.9208007322096532]
予測パワー適応収縮(英: Prediction-Powered Adaptive Shrinkage、PAS)は、PPIを実証的なベイズ収縮で橋渡しし、複数の手段の推定を改善する手法である。 PASはML予測の信頼性に適応し、大規模アプリケーションにおいて従来のベースラインと現代的なベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-20T00:24:05Z)
Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
本研究では,大規模言語モデル (LLM) を用いて予測モデルの事前分布を推定する手法を提案する。本研究では,LLMがパラメータ分布を真に生成するかどうかを評価するとともに,文脈内学習と事前推論のためのモデル選択戦略を提案する。その結果,LLMによる事前パラメータ分布は,低データ設定における非形式的先行よりも予測誤差を著しく低減することがわかった。
論文参考訳（メタデータ） (2024-11-26T10:13:39Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。 QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文参考訳（メタデータ） (2024-04-01T09:33:05Z)
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve [21.55766758950951]
我々は、単語予測タスクを解決するために、大規模言語モデルが採用する戦略について予測する。 11 つのタスクで 2 つの LLM を評価し,LLM が確率の影響を受けていることを示す。我々は、LSMをまるで人間であるかのように評価するのではなく、異なるタイプのシステムとして扱うべきだと結論付けている。
論文参考訳（メタデータ） (2023-09-24T13:35:28Z)
Making Pre-trained Language Models both Task-solvers and Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文参考訳（メタデータ） (2023-07-21T02:51:41Z)
Selection by Prediction with Conformal p-values [7.917044695538599]
本研究では,未観測結果がユーザ指定値を超える候補を選択するためのスクリーニング手順について検討する。本研究では,任意の予測モデルをラップして候補のサブセットを生成する手法を開発した。
論文参考訳（メタデータ） (2022-10-04T06:34:49Z)
Solving Multistage Stochastic Linear Programming via Regularized Linear Decision Rules: An Application to Hydrothermal Dispatch Planning [77.34726150561087]
AdaSO(Adaptive least absolute shrinkage and selection operator)に基づく線形決定規則(LDR)の新しい正規化手法を提案する。実験により、MSLPを解くために古典的な非正規化LDRを使用する場合、過度に適合する脅威は無視できないことが示された。 LHDP問題に対しては、非正規化ベンチマークと比較して、提案したフレームワークの次の利点を強調した。
論文参考訳（メタデータ） (2021-10-07T02:36:14Z)
Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。 In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文参考訳（メタデータ） (2020-08-21T08:46:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。