論文の概要: Unsupervised Evaluation for Question Answering with Transformers
- arxiv url: http://arxiv.org/abs/2010.03222v1
- Date: Wed, 7 Oct 2020 07:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-09 21:59:23.827192
- Title: Unsupervised Evaluation for Question Answering with Transformers
- Title(参考訳): 変圧器を用いた質問応答の教師なし評価
- Authors: Lukas Muttenthaler, Isabelle Augenstein, Johannes Bjerva
- Abstract要約: 本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
- 参考スコア(独自算出の注目度): 46.16837670041594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is challenging to automatically evaluate the answer of a QA model at
inference time. Although many models provide confidence scores, and simple
heuristics can go a long way towards indicating answer correctness, such
measures are heavily dataset-dependent and are unlikely to generalize. In this
work, we begin by investigating the hidden representations of questions,
answers, and contexts in transformer-based QA architectures. We observe a
consistent pattern in the answer representations, which we show can be used to
automatically evaluate whether or not a predicted answer span is correct. Our
method does not require any labeled data and outperforms strong heuristic
baselines, across 2 datasets and 7 domains. We are able to predict whether or
not a model's answer is correct with 91.37% accuracy on SQuAD, and 80.7%
accuracy on SubjQA. We expect that this method will have broad applications,
e.g., in the semi-automatic development of QA datasets
- Abstract(参考訳): 推論時にQAモデルの回答を自動的に評価することは困難である。
多くのモデルが信頼度スコアを提供し、単純なヒューリスティックスは答えの正確さを示すために長い道のりを歩むが、そのような尺度はデータセットに依存しており、一般化されそうにない。
本稿では,まず,トランスフォーマーに基づくQAアーキテクチャにおける質問,回答,コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
我々の手法はラベル付きデータを必要としないため、2つのデータセットと7つのドメインにまたがる強いヒューリスティックなベースラインを上回ります。
SQuADでは91.37%、SubjQAでは80.7%の精度で、モデルの解答が正しいかどうかを予測することができる。
この手法は、例えばQAデータセットの半自動開発において幅広い応用が期待できる。
関連論文リスト
- Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Will this Question be Answered? Question Filtering via Answer Model
Distillation for Efficient Question Answering [99.66470885217623]
本稿では,質問回答システム(QA)の効率向上に向けた新しいアプローチを提案する。
最新のQAシステムの回答信頼性スコアは、入力された質問テキストのみを使用してモデルによってうまく近似することができる。
論文 参考訳(メタデータ) (2021-09-14T23:07:49Z) - Determining Question-Answer Plausibility in Crowdsourced Datasets Using
Multi-Task Learning [10.742152224470317]
本稿では,品質分析とデータクリーニングのための新しいタスクを提案する。
ソーシャルメディア利用者からのマシンやユーザ生成の質問とクラウドソースによる回答が与えられた場合、質問と回答が有効かどうかを判断する。
クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-11-10T04:11:44Z) - Selective Question Answering under Domain Shift [90.021577320085]
モデルがドメイン外の入力に対して過度に信頼されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不適切である。
キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。
提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。
論文 参考訳(メタデータ) (2020-06-16T19:13:21Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。