論文の概要: Selective Question Answering under Domain Shift
- arxiv url: http://arxiv.org/abs/2006.09462v1
- Date: Tue, 16 Jun 2020 19:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:01:45.992927
- Title: Selective Question Answering under Domain Shift
- Title(参考訳): ドメインシフトによる選択的質問応答
- Authors: Amita Kamath, Robin Jia, Percy Liang
- Abstract要約: モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
- 参考スコア(独自算出の注目度): 90.021577320085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To avoid giving wrong answers, question answering (QA) models need to know
when to abstain from answering. Moreover, users often ask questions that
diverge from the model's training data, making errors more likely and thus
abstention more critical. In this work, we propose the setting of selective
question answering under domain shift, in which a QA model is tested on a
mixture of in-domain and out-of-domain data, and must answer (i.e., not abstain
on) as many questions as possible while maintaining high accuracy. Abstention
policies based solely on the model's softmax probabilities fare poorly, since
models are overconfident on out-of-domain inputs. Instead, we train a
calibrator to identify inputs on which the QA model errs, and abstain when it
predicts an error is likely. Crucially, the calibrator benefits from observing
the model's behavior on out-of-domain data, even if from a different domain
than the test data. We combine this method with a SQuAD-trained QA model and
evaluate on mixtures of SQuAD and five other QA datasets. Our method answers
56% of questions while maintaining 80% accuracy; in contrast, directly using
the model's probabilities only answers 48% at 80% accuracy.
- Abstract(参考訳): 間違った答えを出すのを避けるために、質問応答(QA)モデルはいつ回答を控えるかを知る必要がある。
さらに、ユーザーはしばしばモデルのトレーニングデータから分岐する質問をし、エラーがより起こりやすく、したがって無視がより重要になる。
本稿では,ドメイン内データとドメイン外データの混合に対してQAモデルをテストし,高い精度を維持しつつ,可能な限り多くの質問に答えなければならないドメインシフト下での選択的質問応答の設定を提案する。
モデルがドメイン外の入力に過信されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不十分である。
代わりに、キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
重要なことに、キャリブレータは、テストデータとは異なるドメインからであっても、ドメイン外のデータでモデルの振る舞いを観察する利点がある。
この手法をSQuAD学習QAモデルと組み合わせ、SQuADと他の5つのQAデータセットの混合について評価する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
関連論文リスト
- Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Reliable Visual Question Answering: Abstain Rather Than Answer
Incorrectly [100.60560477391732]
我々は、信頼性のある視覚的質問応答(VQA)のための問題定式化を促進する。
私たちは、彼らのカバレッジ、回答された質問の一部、そしてその部分のエラーの両方を分析します。
最高のパフォーマンスモデルは、VQA v2データセットで71%以上の精度を達成するが、そのオプションを導入することで、低いエラー(1%)のリスクを達成するために、8%未満の質問に答えることが制限されることがわかった。
これにより、マルチモーダル選択関数を用いて、予測された回答の正しさを直接推定し、例えば5.0%から16.7%のカバレッジを3倍にすることができることを示す。
論文 参考訳(メタデータ) (2022-04-28T16:51:27Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。