論文の概要: Towards Confident Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2101.07942v2
- Date: Wed, 24 Feb 2021 04:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:29:29.045404
- Title: Towards Confident Machine Reading Comprehension
- Title(参考訳): 自信ある機械読解に向けて
- Authors: Rishav Chakravarti, Avirup Sil
- Abstract要約: 予測後信頼度推定モデルを提案し,これをMr.C(Mr.C)と呼ぶ。
自信)
mr.cは、曲線(auc)の下の領域で測定された最大4ポイントの改善によって、不正な予測を控えるシステムの能力を改善するために訓練することができる。
- 参考スコア(独自算出の注目度): 7.989756186727329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been considerable progress on academic benchmarks for the Reading
Comprehension (RC) task with State-of-the-Art models closing the gap with human
performance on extractive question answering. Datasets such as SQuAD 2.0 & NQ
have also introduced an auxiliary task requiring models to predict when a
question has no answer in the text. However, in production settings, it is also
necessary to provide confidence estimates for the performance of the underlying
RC model at both answer extraction and "answerability" detection. We propose a
novel post-prediction confidence estimation model, which we call Mr.C (short
for Mr. Confident), that can be trained to improve a system's ability to
refrain from making incorrect predictions with improvements of up to 4 points
as measured by Area Under the Curve (AUC) scores. Mr.C can benefit from a novel
white-box feature that leverages the underlying RC model's gradients.
Performance prediction is particularly important in cases of domain shift (as
measured by training RC models on SQUAD 2.0 and evaluating on NQ), where Mr.C
not only improves AUC, but also traditional answerability prediction (as
measured by a 5 point improvement in F1).
- Abstract(参考訳): Reading Comprehension (RC)タスクのための学術的ベンチマークは、抽出的質問応答における人間のパフォーマンスとのギャップを埋めるState-of-the-Artモデルでかなり進歩している。
SQuAD 2.0やNQといったデータセットも、質問がテキストに答えがないことを予測するためのモデルを必要とする補助タスクを導入している。
しかし,本番環境では,答え抽出と"解答可能性"検出の両方において,基礎となるrcモデルの性能に対する信頼性評価を行うことも必要である。
予測後信頼度推定モデルを提案し,これをMr.C(Mr.C)と呼ぶ。
信頼度)は、曲線(auc)の下の領域で測定された最大4ポイントの改善によって、不正な予測を控えるシステムの能力を改善するために訓練することができる。
Mr.Cは、基盤となるRCモデルの勾配を利用する新しいホワイトボックス機能の恩恵を受けることができる。
性能予測は、ドメインシフト(squad 2.0でrcモデルをトレーニングし、nqで評価する)において特に重要であり、mr.cはaucを改善させるだけでなく、従来の応答性予測(f1では5点改善で測定)も行う。
関連論文リスト
- Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。
提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。
本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文 参考訳(メタデータ) (2024-09-29T20:35:57Z) - RICA2: Rubric-Informed, Calibrated Assessment of Actions [8.641411594566714]
動作品質評価(AQA)の予測不確かさを考慮に入れた深層確率モデルRICA2を提案する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正性能に優れた手法であることを示す。
論文 参考訳(メタデータ) (2024-08-04T20:35:33Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Balancing Cost and Quality: An Exploration of Human-in-the-loop
Frameworks for Automated Short Answer Scoring [36.58449231222223]
短い回答スコアリング(英: Short answer score、SAS)とは、学習者によって書かれた短いテキストを段階的に評価するタスクである。
本稿では,グルーピングコストを最小化するためのHuman-in-the-loopフレームワークの利用について検討する。
提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。
論文 参考訳(メタデータ) (2022-06-16T16:43:18Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - RECONSIDER: Re-Ranking using Span-Focused Cross-Attention for Open
Domain Question Answering [49.024513062811685]
本研究では,スパン抽出タスクのための簡易かつ効果的な再ランク付け手法(RECONSIDER)を開発した。
ReCONSIDERは、MRCモデルの高信頼予測から抽出された正および負の例に基づいて訓練される。
パス内のスパンアノテーションを使用して、より小さな候補セットに対してスパンに焦点を当てた再ランクを実行する。
論文 参考訳(メタデータ) (2020-10-21T04:28:42Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。