論文の概要: Possible Stories: Evaluating Situated Commonsense Reasoning under
Multiple Possible Scenarios
- arxiv url: http://arxiv.org/abs/2209.07760v1
- Date: Fri, 16 Sep 2022 07:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:51:10.514015
- Title: Possible Stories: Evaluating Situated Commonsense Reasoning under
Multiple Possible Scenarios
- Title(参考訳): 可能なストーリー:複数のシナリオ下での有意なコモンセンス推論の評価
- Authors: Mana Ashida, Saku Sugawara
- Abstract要約: 本研究は,複数の質問に対して,候補解と同じ結末の集合を問うことで,この課題を補足するものである。
私たちのデータセットは、英語の1.3Kストーリーテキストよりも4.5K以上の質問で構成されています。
- 参考スコア(独自算出の注目度): 8.553766123004682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The possible consequences for the same context may vary depending on the
situation we refer to. However, current studies in natural language processing
do not focus on situated commonsense reasoning under multiple possible
scenarios. This study frames this task by asking multiple questions with the
same set of possible endings as candidate answers, given a short story text.
Our resulting dataset, Possible Stories, consists of more than 4.5K questions
over 1.3K story texts in English. We discover that even current strong
pretrained language models struggle to answer the questions consistently,
highlighting that the highest accuracy in an unsupervised setting (60.2%) is
far behind human accuracy (92.5%). Through a comparison with existing datasets,
we observe that the questions in our dataset contain minimal annotation
artifacts in the answer options. In addition, our dataset includes examples
that require counterfactual reasoning, as well as those requiring readers'
reactions and fictional information, suggesting that our dataset can serve as a
challenging testbed for future studies on situated commonsense reasoning.
- Abstract(参考訳): 同じ文脈で起こりうる影響は、私たちが参照する状況によって異なるかもしれません。
しかし、自然言語処理における最近の研究は、複数の可能なシナリオ下でのコモンセンス推論に焦点をあてていない。
本研究は,複数の質問に対して,候補回答と同一の結末を問うことで,この課題を解決している。
得られたデータセットであるPossible Storiesは、英語の1.3Kストーリーテキストよりも4.5K以上の質問で構成されています。
現在の強固な事前学習された言語モデルでさえ、一貫して質問に答えるのに苦労していることを発見し、教師なし設定(60.2%)における最高精度は人間の正確性(92.5%)をはるかに上回っていることを強調する。
既存のデータセットとの比較を通じて、私たちのデータセットの質問には、回答オプションに最小限のアノテーションアーティファクトが含まれていることを観察する。
さらに、我々のデータセットには、カウンターファクト推論を必要とする例や、読者の反応や架空の情報を必要とする例が含まれており、我々のデータセットは、位置するコモンセンス推論に関する将来の研究のための挑戦的なテストベッドとして機能することを示唆している。
関連論文リスト
- Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Evaluating the Rationale Understanding of Critical Reasoning in Logical
Reading Comprehension [13.896697187967547]
論理的読解データセットから、なぜ解答オプションを選択するか、あるいは排除すべきかを説明する、合理的テキストをクラウドソースします。
実験の結果、最近の大規模言語モデル(例えば、インストラクションGPT)は、たとえ主要な疑問に正しく答えられるとしても、要求に答えることに苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-11-30T08:44:55Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。