論文の概要: GooAQ: Open Question Answering with Diverse Answer Types
- arxiv url: http://arxiv.org/abs/2104.08727v1
- Date: Sun, 18 Apr 2021 05:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:42:21.499803
- Title: GooAQ: Open Question Answering with Diverse Answer Types
- Title(参考訳): gooaq: さまざまな回答タイプによるオープン質問応答
- Authors: Daniel Khashabi, Amos Ng, Tushar Khot, Ashish Sabharwal, Hannaneh
Hajishirzi, Chris Callison-Burch
- Abstract要約: さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
- 参考スコア(独自算出の注目度): 63.06454855313667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While day-to-day questions come with a variety of answer types, the current
question-answering (QA) literature has failed to adequately address the answer
diversity of questions. To this end, we present GooAQ, a large-scale dataset
with a variety of answer types. This dataset contains over 5 million questions
and 3 million answers collected from Google. GooAQ questions are collected
semi-automatically from the Google search engine using its autocomplete
feature. This results in naturalistic questions of practical interest that are
nonetheless short and expressed using simple language. GooAQ answers are mined
from Google's responses to our collected questions, specifically from the
answer boxes in the search results. This yields a rich space of answer types,
containing both textual answers (short and long) as well as more structured
ones such as collections. We benchmarkT5 models on GooAQ and observe that: (a)
in line with recent work, LM's strong performance on GooAQ's short-answer
questions heavily benefit from annotated data; however, (b) their quality in
generating coherent and accurate responses for questions requiring long
responses (such as 'how' and 'why' questions) is less reliant on observing
annotated data and mainly supported by their pre-training. We release GooAQ to
facilitate further research on improving QA with diverse response types.
- Abstract(参考訳): 日々の質問にはさまざまな回答タイプがあるが、現在のq&a(qa)の文献では、質問の多様性に適切に対処できていない。
そこで我々は,さまざまな回答型を持つ大規模データセットであるgooaqを提案する。
このデータセットには500万の質問と300万の回答が含まれている。
GooAQの質問は、自動補完機能を使って、Google検索エンジンから半自動で収集される。
この結果、実用的関心のある自然主義的な質問は、それでも短く、単純な言語で表現される。
GooAQの回答は、収集した質問に対するGoogleの回答、特に検索結果の回答ボックスから抽出されます。
これは、文的な答え(短文と長文)とコレクションのようなより構造化されたものの両方を含む、回答タイプの豊富な空間をもたらす。
A)GooAQの短い質問に対するLMの強いパフォーマンスは、注釈付きデータから大きな恩恵を受けていますが、(b)長い回答を必要とする質問に対する一貫性と正確な応答(例えば 'how' や 'why' のような)の生成におけるそれらの品質は、注釈付きデータの観察にはあまり依存せず、主に事前学習によってサポートされています。
GooAQをリリースし、多様な応答型でQAを改善するためのさらなる研究を支援します。
関連論文リスト
- Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Researchy Questions: A Dataset of Multi-Perspective, Decompositional
Questions for LLM Web Agents [22.023543164141504]
我々は,検索エンジンクエリのデータセットであるResearchy Questionsを紹介した。
クリックやセッションの長さといったシグナルによって,これらの質問に多くの労力が費やされていることを,私たちは示しています。
また、サブクエストへの分解のようなスロー思考の解答技術は、直接解答するよりも有益であることを示す。
論文 参考訳(メタデータ) (2024-02-27T21:27:16Z) - Answering Ambiguous Questions with a Database of Questions, Answers, and
Revisions [95.92276099234344]
ウィキペディアから生成される曖昧な質問のデータベースを利用して、あいまいな質問に答えるための新しい最先端技術を提案する。
提案手法は,リコール対策で15%,予測出力から不明瞭な質問を評価する尺度で10%向上する。
論文 参考訳(メタデータ) (2023-08-16T20:23:16Z) - An Answer Verbalization Dataset for Conversational Question Answerings
over Knowledge Graphs [9.979689965471428]
本稿では,既存のConvQAデータセットを言語化された回答で拡張することによって,最先端技術に寄与する。
5つのシーケンス・ツー・シーケンスモデルを用いて,文法的正しさを維持しながら応答生成実験を行った。
論文 参考訳(メタデータ) (2022-08-13T21:21:28Z) - QAMPARI: An Open-domain Question Answering Benchmark for Questions with
Many Answers from Multiple Paragraphs [42.843866049949206]
本稿では,質問応答がエンティティのリストであるODQAベンチマークであるQAMPARIを紹介する。
我々は、(a)ウィキペディアの知識グラフと表から複数の回答で質問を生成することによりQAMPARIを作成し、(b)ウィキペディアの段落で裏付ける証拠と自動的に回答をペアリングし、(c)質問を手動で言い換え、各回答を検証することで、QAMPARIを作成する。
我々は、検索・読解系からODQAモデルを訓練し、QAMPARIは経路検索と解答生成の両方の観点から困難であり、F1スコアが32.8に達することを発見した。
論文 参考訳(メタデータ) (2022-05-25T11:21:30Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - ConditionalQA: A Complex Reading Comprehension Dataset with Conditional
Answers [93.55268936974971]
条件付き回答を含む複雑な質問を含む質問回答データセットについて述べる。
このデータセットを ConditionalQA と呼びます。
本稿では,既存のQAモデルの多く,特に回答条件の選択において,ConditionalQAは困難であることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:16:46Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。