論文の概要: What's in a Name? Answer Equivalence For Open-Domain Question Answering
- arxiv url: http://arxiv.org/abs/2109.05289v1
- Date: Sat, 11 Sep 2021 14:26:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 09:45:18.025816
- Title: What's in a Name? Answer Equivalence For Open-Domain Question Answering
- Title(参考訳): 名前の由来は?
オープンドメイン質問応答に対する回答等価性
- Authors: Chenglei Si, Chen Zhao, Jordan Boyd-Graber
- Abstract要約: この研究は、知識ベースから別名のエンティティを採掘し、それを追加の金の答えとして利用する。
追加回答による評価と等価回答によるモデルトレーニングの2つの設定に回答を組み込む。
我々は、Nature Questions、TriviaQA、SQuADの3つのQAベンチマークを分析します。
- 参考スコア(独自算出の注目度): 4.938944927389528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A flaw in QA evaluation is that annotations often only provide one gold
answer. Thus, model predictions semantically equivalent to the answer but
superficially different are considered incorrect. This work explores mining
alias entities from knowledge bases and using them as additional gold answers
(i.e., equivalent answers). We incorporate answers for two settings: evaluation
with additional answers and model training with equivalent answers. We analyse
three QA benchmarks: Natural Questions, TriviaQA, and SQuAD. Answer expansion
increases the exact match score on all datasets for evaluation, while
incorporating it helps model training over real-world datasets. We ensure the
additional answers are valid through a human post hoc evaluation.
- Abstract(参考訳): QA評価の欠点は、アノテーションが1つのゴールド回答しか提供しないことだ。
したがって、モデル予測は、答えと意味的に等価であるが、表面的に異なるものと見なされる。
この研究は、知識ベースからエイリアス実体を採掘し、それを追加の金の解答(すなわち等価な解答)として利用する。
追加回答による評価と等価回答によるモデルトレーニングの2つの設定に回答を組み込む。
我々は、Nature Questions、TriviaQA、SQuADの3つのQAベンチマークを分析します。
answer拡張は、評価のためのすべてのデータセットの正確な一致スコアを増加させ、現実世界のデータセットに対するモデルのトレーニングに役立つ。
追加の回答がヒトのポストホック評価によって有効であることを保証します。
関連論文リスト
- Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer? [43.03399918557937]
現実世界のアプリケーションでは、ユーザは決定的な答えを持たない質問をすることが多い。
QnotAは、明確な答えを持たない5つのカテゴリの質問からなるデータセットである。
このデータを用いて、システムの「識別」、「識別」、QnotA質問を「正当化」する能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 といった SOTA モデルでさえ,これらのタスクはうまく行っていない。
論文 参考訳(メタデータ) (2023-09-08T23:12:03Z) - Knowledge Transfer from Answer Ranking to Answer Generation [97.38378660163414]
我々は、訓練されたAS2モデルから知識を伝達することで、GenQAモデルをトレーニングすることを提案する。
また,AS2モデル予測スコアを損失重み付けおよびスコア条件付き入出力整形に用いることを提案する。
論文 参考訳(メタデータ) (2022-10-23T21:51:27Z) - Answer Consolidation: Formulation and Benchmarking [35.38034364777484]
我々は、回答を複数のグループに分割する、回答統合の問題を定式化する。
包括的で非冗長な答えの集合は、各グループから1つの答えを選択することで構成できる。
最高のパフォーマンスの教師付きモデルによって達成される有望なパフォーマンスにもかかわらず、このタスクにはさらなる改善の余地があると考えています。
論文 参考訳(メタデータ) (2022-04-29T18:57:23Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - 'Just because you are right, doesn't mean I am wrong': Overcoming a
Bottleneck in the Development and Evaluation of Open-Ended Visual Question
Answering (VQA) Tasks [11.299897008333241]
GQAは、現実世界の視覚的推論と構成的質問応答のためのデータセットである。
GQAデータセットの最良のビジョンモデルによって予測される多くの回答は、基礎的真実の答えと一致しないが、与えられたコンテキストにおいて意味的に意味があり正しい。
我々は,この制限に対処するために,既設のNLPツールを用いて自動生成する,地中回答の代替アンサーセット(AAS)を提案する。
論文 参考訳(メタデータ) (2021-03-28T00:07:08Z) - Graph-Based Tri-Attention Network for Answer Ranking in CQA [56.42018099917321]
本稿では,グラフに基づく新しい三者関係ネットワーク,すなわちGTANを提案し,回答ランキングのスコアを生成する。
実世界の3つのCQAデータセットの実験では、GTANは最先端の回答ランキング法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-03-05T10:40:38Z) - Unsupervised Evaluation for Question Answering with Transformers [46.16837670041594]
本稿では, トランスフォーマーに基づくQAアーキテクチャにおける質問, 回答, コンテキストの隠蔽表現について検討する。
回答表現における一貫したパターンを観察し、予測された回答が正しいかどうかを自動的に評価することができることを示す。
私たちはモデルの解答が正解かどうかを、SQuADの91.37%、SubjQAの80.7%の精度で予測することができる。
論文 参考訳(メタデータ) (2020-10-07T07:03:30Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。