論文の概要: AVA: an Automatic eValuation Approach to Question Answering Systems
- arxiv url: http://arxiv.org/abs/2005.00705v1
- Date: Sat, 2 May 2020 05:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:30:56.466000
- Title: AVA: an Automatic eValuation Approach to Question Answering Systems
- Title(参考訳): AVA:質問応答システムに対する自動eValuationアプローチ
- Authors: Thuy Vu and Alessandro Moschitti
- Abstract要約: AVAはTransformerベースの言語モデルを使用して、質問、回答、参照テキストをエンコードする。
我々の解は、F1の74.7%のスコアを達成し、一つの答えに対する人間の判断を予測する。
- 参考スコア(独自算出の注目度): 123.36351076384479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce AVA, an automatic evaluation approach for Question Answering,
which given a set of questions associated with Gold Standard answers, can
estimate system Accuracy. AVA uses Transformer-based language models to encode
question, answer, and reference text. This allows for effectively measuring the
similarity between the reference and an automatic answer, biased towards the
question semantics. To design, train and test AVA, we built multiple large
training, development, and test sets on both public and industrial benchmarks.
Our innovative solutions achieve up to 74.7% in F1 score in predicting human
judgement for single answers. Additionally, AVA can be used to evaluate the
overall system Accuracy with an RMSE, ranging from 0.02 to 0.09, depending on
the availability of multiple references.
- Abstract(参考訳): 質問応答の自動評価手法であるavaを導入することで, 金標準回答に関する一連の質問が与えられ, システム精度を推定できる。
AVAはTransformerベースの言語モデルを使用して質問、回答、参照テキストをエンコードする。
これにより、質問の意味論に偏った参照と自動回答の類似性を効果的に測定できる。
avaの設計、トレーニング、テストのために、パブリックとインダストリアルのベンチマークで複数の大規模なトレーニング、開発、テストセットを構築しました。
我々の革新的なソリューションは、F1の74.7%のスコアを達成し、単一の回答に対する人間の判断を予測する。
さらに、AVAは、複数の参照の可用性に応じて 0.02 から 0.09 の範囲の RMSE でシステム全体の精度を評価するのに使うことができる。
関連論文リスト
- Improving Automatic VQA Evaluation Using Large Language Models [6.468405905503242]
本稿では,より優れたVQAメトリックを構築するために,命令調整型大規模言語モデルのコンテキスト内学習機能を活用することを提案する。
提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関性が高いことを示す。
論文 参考訳(メタデータ) (2023-10-04T03:59:57Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Will this Question be Answered? Question Filtering via Answer Model
Distillation for Efficient Question Answering [99.66470885217623]
本稿では,質問回答システム(QA)の効率向上に向けた新しいアプローチを提案する。
最新のQAシステムの回答信頼性スコアは、入力された質問テキストのみを使用してモデルによってうまく近似することができる。
論文 参考訳(メタデータ) (2021-09-14T23:07:49Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。