論文の概要: Towards Improving Selective Prediction Ability of NLP Systems
- arxiv url: http://arxiv.org/abs/2008.09371v3
- Date: Thu, 7 Apr 2022 00:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 20:51:40.831141
- Title: Towards Improving Selective Prediction Ability of NLP Systems
- Title(参考訳): NLPシステムの選択予測能力向上に向けて
- Authors: Neeraj Varshney, Swaroop Mishra, Chitta Baral
- Abstract要約: 本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
- 参考スコア(独自算出の注目度): 24.774450633678125
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: It's better to say "I can't answer" than to answer incorrectly. This
selective prediction ability is crucial for NLP systems to be reliably deployed
in real-world applications. Prior work has shown that existing selective
prediction techniques fail to perform well, especially in the out-of-domain
setting. In this work, we propose a method that improves probability estimates
of models by calibrating them using prediction confidence and difficulty score
of instances. Using these two signals, we first annotate held-out instances and
then train a calibrator to predict the likelihood of correctness of the model's
prediction. We instantiate our method with Natural Language Inference (NLI) and
Duplicate Detection (DD) tasks and evaluate it in both In-Domain (IID) and
Out-of-Domain (OOD) settings. In (IID, OOD) settings, we show that the
representations learned by our calibrator result in an improvement of (15.81%,
5.64%) and (6.19%, 13.9%) over 'MaxProb' -- a selective prediction baseline --
on NLI and DD tasks respectively.
- Abstract(参考訳): 間違った答えをするより、"答えられない"と言う方がよい。
この選択予測能力は、NLPシステムが現実世界のアプリケーションに確実にデプロイされるためには不可欠である。
以前の研究は、特にドメイン外設定では、既存の選択的予測手法がうまく機能しないことを示した。
本研究では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
これら2つの信号を用いて、まずホールドアウトされたインスタンスに注釈を付け、次にキャリブレータを訓練し、モデルの予測の正確性を予測する。
提案手法を自然言語推論(nli)と重複検出(dd)タスクでインスタンス化し,in-domain(iid)とout-of-domain(ood)の両方で評価する。
IID, OOD) 設定では, キャリブレータで学習した表現は, NLI および DD タスクにおいて, 選択予測ベースラインである 'MaxProb' よりも (15.81%, 5.64%) と (6.19%, 13.9%) 向上することを示した。
関連論文リスト
- Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Multiclass Alignment of Confidence and Certainty for Network Calibration [10.15706847741555]
最近の研究では、ディープニューラルネットワーク(DNN)が過信的な予測を行う傾向があることが示されている。
予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる簡易なプラグアンドプレイ補助損失を特徴とする列車時キャリブレーション法を提案する。
本手法は,領域内および領域外両方のキャリブレーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-06T00:56:24Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Neural Predictive Monitoring under Partial Observability [4.1316328854247155]
本稿では,部分観測可能性(PO)に拘わらず,正確かつ信頼性の高い到達可能性予測を生成する学習ベース予測手法を提案する。
提案手法は,精度の高い到達可能性予測とエラー検出を行い,また,カバー範囲が保証された厳密な予測領域を実現する。
論文 参考訳(メタデータ) (2021-08-16T15:08:20Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。