論文の概要: TellMeWhy: A Dataset for Answering Why-Questions in Narratives
- arxiv url: http://arxiv.org/abs/2106.06132v1
- Date: Fri, 11 Jun 2021 02:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 03:53:30.774949
- Title: TellMeWhy: A Dataset for Answering Why-Questions in Narratives
- Title(参考訳): tellme why: why-questions in narrativesに答えるデータセット
- Authors: Yash Kumar Lal, Nathanael Chambers, Raymond Mooney and Niranjan
Balasubramanian
- Abstract要約: TellMeWhyは、30万以上の質問と、短い物語の登場人物が説明されているアクションを実行する理由に関する自由形式の回答からなる、クラウドソースによる新しいデータセットである。
このタスクの自動評価の限界を考えると、このデータセットのための体系化された人間評価インタフェースも提示する。
我々の最先端モデルの評価は、そのような疑問に答える上で、人間のパフォーマンスよりもはるかに低いことを示している。
- 参考スコア(独自算出の注目度): 14.311052741423858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Answering questions about why characters perform certain actions is central
to understanding and reasoning about narratives. Despite recent progress in QA,
it is not clear if existing models have the ability to answer "why" questions
that may require commonsense knowledge external to the input narrative. In this
work, we introduce TellMeWhy, a new crowd-sourced dataset that consists of more
than 30k questions and free-form answers concerning why characters in short
narratives perform the actions described. For a third of this dataset, the
answers are not present within the narrative. Given the limitations of
automated evaluation for this task, we also present a systematized human
evaluation interface for this dataset. Our evaluation of state-of-the-art
models show that they are far below human performance on answering such
questions. They are especially worse on questions whose answers are external to
the narrative, thus providing a challenge for future QA and narrative
understanding research.
- Abstract(参考訳): キャラクターがなぜ特定の行動を行うのかという疑問に答えることは、物語を理解し、推論することの中心である。
近年のQAの進展にもかかわらず、既存のモデルが入力物語の外部で常識的な知識を必要とする「なぜ」疑問に答える能力を持っているかどうかは不明である。
本稿では,30万以上の質問と,短い物語の登場人物が記述された行動を行う理由に関する自由形式の回答からなる,クラウドソースによる新たなデータセットTellMeWhyを紹介する。
このデータセットの3分の1は、回答はナラティブには存在しない。
この課題に対する自動評価の限界を考えると、このデータセットのためのシステム化された人間評価インタフェースも提示する。
最先端モデルの評価は,そのような質問に答える上で,人間のパフォーマンスをはるかに下回っていることを示している。
彼らは特に、回答が物語の外部にある質問に対して悪化しており、将来のQAと物語理解研究に課題を与えている。
関連論文リスト
- Question Answering Survey: Directions, Challenges, Datasets, Evaluation
Matrices [0.0]
QA分野の研究の方向性は,質問の種類,回答の種類,根拠の源泉,モデリングアプローチに基づいて分析される。
これに続き、自動質問生成、類似性検出、言語に対する低リソース可用性など、この分野のオープンな課題が続きます。
論文 参考訳(メタデータ) (2021-12-07T08:53:40Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - GooAQ: Open Question Answering with Diverse Answer Types [63.06454855313667]
さまざまな回答型を持つ大規模データセットであるGooAQを紹介する。
このデータセットには500万の質問と300万の回答が含まれている。
論文 参考訳(メタデータ) (2021-04-18T05:40:39Z) - A Graph-guided Multi-round Retrieval Method for Conversational
Open-domain Question Answering [52.041815783025186]
本稿では,会話のターン間の回答間の関係をモデル化するグラフ誘導検索手法を提案する。
また,検索コンテキストが現在の質問理解に与える影響を検討するために,マルチラウンド関連フィードバック手法を導入することを提案する。
論文 参考訳(メタデータ) (2021-04-17T04:39:41Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。