論文の概要: ASQA: Factoid Questions Meet Long-Form Answers
- arxiv url: http://arxiv.org/abs/2204.06092v1
- Date: Tue, 12 Apr 2022 21:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:49:48.178071
- Title: ASQA: Factoid Questions Meet Long-Form Answers
- Title(参考訳): ASQA: 長文の回答にファクトイドの質問
- Authors: Ivan Stelmakh, Yi Luan, Bhuwan Dhingra, Ming-Wei Chang
- Abstract要約: この研究は、解釈によって異なる正しい答えを持つ、あいまいな事実型問題に焦点を当てている。
曖昧な質問に対する回答は、複数の情報源からの事実情報を長文の要約にまとめるべきである。
我々は、この正確性の概念を用いて、ASQAのパフォーマンスの自動測定基準を定義します。
- 参考スコア(独自算出の注目度): 35.11889930792675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An abundance of datasets and availability of reliable evaluation metrics have
resulted in strong progress in factoid question answering (QA). This progress,
however, does not easily transfer to the task of long-form QA, where the goal
is to answer questions that require in-depth explanations. The hurdles include
(i) a lack of high-quality data, and (ii) the absence of a well-defined notion
of the answer's quality. In this work, we address these problems by (i)
releasing a novel dataset and a task that we call ASQA (Answer Summaries for
Questions which are Ambiguous); and (ii) proposing a reliable metric for
measuring performance on ASQA. Our task focuses on factoid questions that are
ambiguous, that is, have different correct answers depending on interpretation.
Answers to ambiguous questions should synthesize factual information from
multiple sources into a long-form summary that resolves the ambiguity. In
contrast to existing long-form QA tasks (such as ELI5), ASQA admits a clear
notion of correctness: a user faced with a good summary should be able to
answer different interpretations of the original ambiguous question. We use
this notion of correctness to define an automated metric of performance for
ASQA. Our analysis demonstrates an agreement between this metric and human
judgments, and reveals a considerable gap between human performance and strong
baselines.
- Abstract(参考訳): データセットの多さと信頼性評価指標の可用性は、ファクトイド質問応答(QA)において大きな進歩をもたらした。
しかし、この進歩は、詳細な説明を必要とする質問に答えることが目的である長期QAの課題に容易に移行することができない。
ハードルには
(i)高品質なデータの欠如、及び
(ii)回答の品質についての明確な概念が存在しないこと。
本稿では,これらの問題に対処する。
i)ASQA(Answer Summaries for Questions that are Ambiguous)と呼ばれる新しいデータセットとタスクを公開し、
(II)ASQAの性能測定のための信頼性指標の提案。
我々の課題は、不明瞭な事実的質問、すなわち解釈によって異なる正しい回答に焦点をあてる。
あいまいな質問に対する回答は、複数の情報源からの事実情報を、あいまいさを解決する長文の要約にまとめるべきである。
既存の長期QAタスク(ELI5など)とは対照的に、ASQAは明確な正当性の概念を認めている。
我々はこの正確性の概念を用いて、ASQAのパフォーマンスの自動測定値を定義する。
本分析は,この測定値と人的判断値の一致を示し,人的評価と強いベースラインとの間にかなりの差があることを明らかにする。
関連論文リスト
- Retrieving Contextual Information for Long-Form Question Answering using Weak Supervision [23.394961301584026]
LFQA(Long-form Question answering)は、エンドユーザの質問に対する詳細な回答を生成することを目的としている。
本研究では,文脈情報の検索を最適化するために,様々な弱い監視手法を提案し,比較する。
長文の回答は、しばしばフォローアップの質問を予想することを示している。
論文 参考訳(メタデータ) (2024-10-11T08:42:02Z) - PEDANTS: Cheap but Effective and Interpretable Answer Equivalence [10.367359022491181]
我々は,Triviaコミュニティで採用されているマシンQAを評価するために,ルーリックとデータセットを提供する。
また、正確なマッチングとニューラルメソッド(BERTScore)よりも安定な、効率的で解釈可能なQA評価を提案する。
論文 参考訳(メタデータ) (2024-02-17T01:56:19Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Can NLP Models 'Identify', 'Distinguish', and 'Justify' Questions that
Don't have a Definitive Answer? [43.03399918557937]
現実世界のアプリケーションでは、ユーザは決定的な答えを持たない質問をすることが多い。
QnotAは、明確な答えを持たない5つのカテゴリの質問からなるデータセットである。
このデータを用いて、システムの「識別」、「識別」、QnotA質問を「正当化」する能力をテストする3つの評価タスクを定式化する。
GPT-3 や Flan T5 といった SOTA モデルでさえ,これらのタスクはうまく行っていない。
論文 参考訳(メタデータ) (2023-09-08T23:12:03Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - QED: A Framework and Dataset for Explanations in Question Answering [27.85923397716627]
Google Natural Questionsデータセットのサブセット上に構築されたQED説明のエキスパートアノテートデータセットをリリースする。
有望な結果は、比較的少量のQEDデータのトレーニングが質問応答を改善することを示唆している。
論文 参考訳(メタデータ) (2020-09-08T23:34:18Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。