論文の概要: Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question
Answering Evaluation
- arxiv url: http://arxiv.org/abs/2202.07654v1
- Date: Tue, 15 Feb 2022 18:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:16:53.048210
- Title: Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question
Answering Evaluation
- Title(参考訳): Tomayto, Tomahto。
質問応答評価のためのトークンレベルの回答等価性
- Authors: Jannis Bulian, Christian Buck, Wojciech Gajewski, Benjamin
Boerschinger, Tal Schuster
- Abstract要約: 質問応答システムは通常、1つ以上の回答の注釈付き有限集合に対して評価される。
これは、システムの真のパフォーマンスを過小評価する、カバレッジの制限につながる。
本稿では,トークンレベルの等価度尺度の欠点を検討するための,最初の体系的概念的およびデータ駆動分析について述べる。
- 参考スコア(独自算出の注目度): 11.733609600774306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The predictions of question answering (QA) systems are typically evaluated
against manually annotated finite sets of one or more answers. This leads to a
coverage limitation that results in underestimating the true performance of
systems, and is typically addressed by extending over exact match (EM) with
predefined rules or with the token-level F1 measure. In this paper, we present
the first systematic conceptual and data-driven analysis to examine the
shortcomings of token-level equivalence measures.
To this end, we define the asymmetric notion of answer equivalence (AE),
accepting answers that are equivalent to or improve over the reference, and
collect over 26K human judgements for candidates produced by multiple QA
systems on SQuAD. Through a careful analysis of this data, we reveal and
quantify several concrete limitations of the F1 measure, such as false
impression of graduality, missing dependence on question, and more.
Since collecting AE annotations for each evaluated model is expensive, we
learn a BERT matching BEM measure to approximate this task. Being a simpler
task than QA, we find BEM to provide significantly better AE approximations
than F1, and more accurately reflect the performance of systems.
Finally, we also demonstrate the practical utility of AE and BEM on the
concrete application of minimal accurate prediction sets, reducing the number
of required answers by up to 2.6 times.
- Abstract(参考訳): 質問応答(QA)システムの予測は通常、1つ以上の回答の注釈付き有限集合に対して評価される。
これにより、システムの真のパフォーマンスを過小評価するカバレッジ制限が発生し、通常、事前に定義されたルールやトークンレベルのf1測定値で正確な一致(em)を拡張することで対処される。
本稿では,トークンレベルの等価度尺度の欠点を検討するために,最初の体系的概念およびデータ駆動分析を提案する。
この目的のために、回答等価性(AE)という非対称な概念を定義し、参照に対して同等または改善された回答を受け入れ、SQuAD上の複数のQAシステムによって生成される候補に対して26K以上の人的判断を収集する。
このデータを注意深く分析することにより,感謝心の虚偽の印象や質問への依存の欠如など,f1尺度のいくつかの具体的な限界を明らかにし,定量化する。
評価された各モデルに対するAEアノテーションの収集は高価であるため、BERTマッチングBEM尺度を学習し、このタスクを近似する。
QAよりも単純なタスクであるため、BEMはF1よりもはるかに優れたAE近似を提供し、システムの性能をより正確に反映する。
最後に, 最小精度予測セットの具体的適用において, ae と bem の実用性を実証し, 必要な回答数を最大 2.6 倍に削減した。
関連論文リスト
- UniOQA: A Unified Framework for Knowledge Graph Question Answering with Large Language Models [4.627548680442906]
OwnThinkは、近年導入された中国の最も広範なオープンドメイン知識グラフである。
質問応答のための2つの並列アプローチを統合する統合フレームワークであるUniOQAを紹介する。
UniOQAは特にSpCQL Logical Accuracyを21.2%に、Execution Accuracyを54.9%に向上させ、このベンチマークで新たな最先端結果を達成した。
論文 参考訳(メタデータ) (2024-06-04T08:36:39Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering [14.366087533102656]
質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行する。
回答等価性(AE)を決定するための現在の評価基準は、しばしば人間の判断と一致しない。
論文 参考訳(メタデータ) (2024-01-24T01:30:25Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluation of Question Answering Systems: Complexity of judging a
natural language [3.4771957347698583]
質問応答システム(QA)は、自然言語処理(NLP)において最も重要かつ急速に発展している研究課題の一つである。
本調査では,QAの枠組み,QAパラダイム,ベンチマークデータセット,およびQAシステムの定量的評価のための評価手法の体系的概要について述べる。
論文 参考訳(メタデータ) (2022-09-10T12:29:04Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。