論文の概要: WikiWhy: Answering and Explaining Cause-and-Effect Questions
- arxiv url: http://arxiv.org/abs/2210.12152v1
- Date: Fri, 21 Oct 2022 17:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:32:45.982999
- Title: WikiWhy: Answering and Explaining Cause-and-Effect Questions
- Title(参考訳): WikiWhy:原因と影響に関する質問の回答と説明
- Authors: Matthew Ho, Aditya Sharma, Justin Chang, Michael Saxon, Sharon Levy,
Yujie Lu, William Yang Wang
- Abstract要約: 自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
- 参考スコア(独自算出の注目度): 62.60993594814305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) grow larger and more sophisticated, assessing
their "reasoning" capabilities in natural language grows more challenging.
Recent question answering (QA) benchmarks that attempt to assess reasoning are
often limited by a narrow scope of covered situations and subject matters. We
introduce WikiWhy, a QA dataset built around a novel auxiliary task: explaining
why an answer is true in natural language. WikiWhy contains over 9,000 "why"
question-answer-rationale triples, grounded on Wikipedia facts across a diverse
set of topics. Each rationale is a set of supporting statements connecting the
question to the answer. WikiWhy serves as a benchmark for the reasoning
capabilities of LLMs because it demands rigorous explicit rationales for each
answer to demonstrate the acquisition of implicit commonsense knowledge, which
is unlikely to be easily memorized. GPT-3 baselines achieve only 38.7%
human-evaluated correctness in the end-to-end answer & explain condition,
leaving significant room for future improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)が大きくなるにつれて、自然言語の「推論」能力を評価することがより困難になる。
推論を評価するための最近のQAベンチマークは、しばしばカバーされた状況や課題の狭い範囲によって制限される。
WikiWhyは、自然言語で答えが正しい理由を説明する、新しい補助タスクを中心に構築されたQAデータセットである。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
それぞれの理性は、質問と回答を結びつける一連の支持文である。
WikiWhy は LLM の推論能力のベンチマークとして機能し、暗黙のコモンセンス知識の獲得を示すために、各回答に対して厳密な明確な論理的根拠を要求するため、容易に記憶される可能性が低い。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正確さを38.7%しか達成していない。
関連論文リスト
- Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering [18.48602809114524]
知識グラフ質問回答法(KGQA)は,知識グラフ(KGs)に格納された関係情報を用いて自然言語の質問に答えようとする方法である。
近年のLarge Language Models(LLM)の進歩と、その顕著な推論能力により、KGQAにそれらを活用する傾向が高まっている。
検証可能な推論手順を可能にする共通知識KGQA手法であるRight for Right Reasons (R3)を提案する。
論文 参考訳(メタデータ) (2024-03-03T04:22:13Z) - Alexpaca: Learning Factual Clarification Question Generation Without Examples [19.663171923249283]
本稿では,マルチホップ推論タスクにおける欠落情報を抽出する機能に着目した新しいタスクを提案する。
Llama 3 8B Instructはいくつかの指標ではダミーベースラインに勝ってもいない。
論文 参考訳(メタデータ) (2023-10-17T20:40:59Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous
Questions in VQA [33.11688014628816]
あいまいな質問を解決することが、彼らに答える上で鍵となる。
あいまいな例のデータセットを作成し、それらが対処する基礎的な質問によって回答をグループ化し、各グループに対する質問を言い換えてあいまいさを減らします。
そして、自動的および人的評価により、よりあいまいな質問を生成する英語の質問生成モデルを開発する。
論文 参考訳(メタデータ) (2022-11-14T16:45:42Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Reasoning over Logically Interacted Conditions for Question Answering [113.9231035680578]
我々は、論理的に相互作用する条件のリストによって答えが制約される、より困難なタスクについて研究する。
本稿では,この難解な推論タスクのための新しいモデルTReasonerを提案する。
TReasonerは、2つのベンチマーク条件付きQAデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-25T16:41:39Z) - Single-Turn Debate Does Not Help Humans Answer Hard
Reading-Comprehension Questions [29.932543276414602]
議論スタイルのセットアップにおいて、正しい答えオプションと間違った回答オプションの両方に対して、単一の引数のデータセットを構築します。
私たちは長いコンテキストを使用します -- コンテキストに精通した人間は、事前に選択された正解と誤解に対する説得力のある説明を書きます。
これらの説明によって、完全な文脈を読まない人間が正しい答えをより正確に決定できるかどうかをテストする。
論文 参考訳(メタデータ) (2022-04-11T15:56:34Z) - How Do We Answer Complex Questions: Discourse Structure of Long-form
Answers [51.973363804064704]
3つのデータセットから収集した長文回答の機能構造について検討した。
私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。
我々の研究は、長期QAシステムの談話レベルのモデリングと評価に関する将来の研究に刺激を与えることができる。
論文 参考訳(メタデータ) (2022-03-21T15:14:10Z) - QED: A Framework and Dataset for Explanations in Question Answering [27.85923397716627]
Google Natural Questionsデータセットのサブセット上に構築されたQED説明のエキスパートアノテートデータセットをリリースする。
有望な結果は、比較的少量のQEDデータのトレーニングが質問応答を改善することを示唆している。
論文 参考訳(メタデータ) (2020-09-08T23:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。