論文の概要: Hurdles to Progress in Long-form Question Answering
- arxiv url: http://arxiv.org/abs/2103.06332v1
- Date: Wed, 10 Mar 2021 20:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:57:55.426669
- Title: Hurdles to Progress in Long-form Question Answering
- Title(参考訳): 長文質問応答の進歩へのハードル
- Authors: Kalpesh Krishna, Aurko Roy, Mohit Iyyer
- Abstract要約: タスクの定式化は評価とデータセットの作成に関する根本的な課題を提起する。
まず,最先端性能を実現するために,注意の疎化とコントラストレトリバー学習による新しいシステムを設計する。
- 参考スコア(独自算出の注目度): 34.805039943215284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of long-form question answering (LFQA) involves retrieving documents
relevant to a given question and using them to generate a paragraph-length
answer. While many models have recently been proposed for LFQA, we show in this
paper that the task formulation raises fundamental challenges regarding
evaluation and dataset creation that currently preclude meaningful modeling
progress. To demonstrate these challenges, we first design a new system that
relies on sparse attention and contrastive retriever learning to achieve
state-of-the-art performance on the ELI5 LFQA dataset. While our system tops
the public leaderboard, a detailed analysis reveals several troubling trends:
(1) our system's generated answers are not actually grounded in the documents
that it retrieves; (2) ELI5 contains significant train / test overlap, as at
least 81% of ELI5 validation questions occur in paraphrased form in the
training set; (3) ROUGE-L is not an informative metric of generated answer
quality and can be easily gamed; and (4) human evaluations used for other text
generation tasks are unreliable for LFQA. We provide suggestions to mitigate
each of these issues, which we hope will lead to more rigorous LFQA research
and meaningful progress in the future.
- Abstract(参考訳): 長文質問応答(LFQA)の課題は、与えられた質問に関連する文書を検索し、それを用いて段落長の回答を生成することである。
近年,LFQA に対して多くのモデルが提案されているが,本論文では,タスクの定式化が,現在有意義なモデリングの進歩を妨げている評価やデータセット作成に関する根本的な課題を提起している。
これらの課題を実証するために,我々はまず,eli5 lfqaデータセットの最先端性能を実現するために,スパース注意とコントラストレトリバー学習に依存する新しいシステムを設計した。
While our system tops the public leaderboard, a detailed analysis reveals several troubling trends: (1) our system's generated answers are not actually grounded in the documents that it retrieves; (2) ELI5 contains significant train / test overlap, as at least 81% of ELI5 validation questions occur in paraphrased form in the training set; (3) ROUGE-L is not an informative metric of generated answer quality and can be easily gamed; and (4) human evaluations used for other text generation tasks are unreliable for LFQA.
これらの各課題を緩和するための提案を行い、より厳密なLFQA研究と将来有意義な進歩につながることを願っています。
関連論文リスト
- Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Long-form Question Answering: An Iterative Planning-Retrieval-Generation
Approach [28.849548176802262]
長文質問応答(LFQA)は,段落の形で詳細な回答を生成するため,課題となる。
本稿では,反復計画,検索,生成を伴うLFQAモデルを提案する。
我々のモデルはLFQAタスクの様々なテキストおよび実測値の最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-15T21:22:27Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - QASnowball: An Iterative Bootstrapping Framework for High-Quality
Question-Answering Data Generation [67.27999343730224]
QAデータ拡張のための反復型ブートストラップフレームワーク(QASnowball)を導入する。
QASnowballは、教師付きサンプルのシードセットに基づいて、大規模で高品質なQAデータを反復的に生成することができる。
本研究では, 高資源の英語シナリオと中資源の中国語シナリオで実験を行い, 実験結果から, QASnowball が生成したデータによりQAモデルを容易に作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-19T05:20:36Z) - Generative Long-form Question Answering: Relevance, Faithfulness and
Succinctness [9.770663160391287]
Long Form Question Answering (LFQA) は、ある質問に対して、より深い、項長の回答を生成することを目的としている。
LFQAシステムを効果的に構築する作業はほとんど行われていない。
1)質問関連性,2)回答忠実性,3)回答簡潔性の観点から回答品質を改善するための研究の方向性を開拓した。
論文 参考訳(メタデータ) (2022-11-15T18:36:01Z) - RealTime QA: What's the Answer Right Now? [137.04039209995932]
本稿では,動的質問応答(QA)プラットフォームであるREALTIME QAを紹介する。
GPT-3 や T5 など,大規模事前学習型言語モデルに基づく強力なベースラインモデルを構築した。
GPT-3は、検索された文書が答えを見つけるのに十分な情報を提供していない場合、時代遅れの回答を返す傾向がある。
論文 参考訳(メタデータ) (2022-07-27T07:26:01Z) - Read before Generate! Faithful Long Form Question Answering with Machine
Reading [77.17898499652306]
LFQA(Long-form Question answering)は、ある質問に対する段落長の回答を生成することを目的としている。
生成と機械読取を協調的にモデル化する新しいエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-01T10:41:17Z) - New Methods & Metrics for LFQA tasks [0.0]
長い形式の質問応答タスクでは、クエリに関連する文書を検索し、それを使用して段落長の回答を作成する必要がある。
この作業では、トレイン/バリデーション/テストのデータセットのオーバーラップ、自動メトリクスの欠如、検索したドキュメントに“接地”されていない回答の生成に対処する。
論文 参考訳(メタデータ) (2021-12-26T18:38:05Z) - Reinforcement Learning for Abstractive Question Summarization with
Question-aware Semantic Rewards [20.342580435464072]
本稿では,抽象的な質問要約のための強化学習に基づくフレームワークを提案する。
i)質問型識別と(ii)質問焦点認識の下流タスクから得られる2つの新しい報酬を提案する。
これらの報酬は意味論的に有効な質問の生成を確実にし、質問要約に重要な医療機関/焦点を取り入れることを奨励する。
論文 参考訳(メタデータ) (2021-07-01T02:06:46Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。