論文の概要: Single-Turn Debate Does Not Help Humans Answer Hard
Reading-Comprehension Questions
- arxiv url: http://arxiv.org/abs/2204.05212v2
- Date: Wed, 13 Apr 2022 13:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 11:31:51.593131
- Title: Single-Turn Debate Does Not Help Humans Answer Hard
Reading-Comprehension Questions
- Title(参考訳): シングル・トゥルン・ディベートは、読みにくい質問に答えるのに役に立たない
- Authors: Alicia Parrish and Harsh Trivedi and Ethan Perez and Angelica Chen and
Nikita Nangia and Jason Phang and Samuel R. Bowman
- Abstract要約: 議論スタイルのセットアップにおいて、正しい答えオプションと間違った回答オプションの両方に対して、単一の引数のデータセットを構築します。
私たちは長いコンテキストを使用します -- コンテキストに精通した人間は、事前に選択された正解と誤解に対する説得力のある説明を書きます。
これらの説明によって、完全な文脈を読まない人間が正しい答えをより正確に決定できるかどうかをテストする。
- 参考スコア(独自算出の注目度): 29.932543276414602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current QA systems can generate reasonable-sounding yet false answers without
explanation or evidence for the generated answer, which is especially
problematic when humans cannot readily check the model's answers. This presents
a challenge for building trust in machine learning systems. We take inspiration
from real-world situations where difficult questions are answered by
considering opposing sides (see Irving et al., 2018). For multiple-choice QA
examples, we build a dataset of single arguments for both a correct and
incorrect answer option in a debate-style set-up as an initial step in training
models to produce explanations for two candidate answers. We use long contexts
-- humans familiar with the context write convincing explanations for
pre-selected correct and incorrect answers, and we test if those explanations
allow humans who have not read the full context to more accurately determine
the correct answer. We do not find that explanations in our set-up improve
human accuracy, but a baseline condition shows that providing human-selected
text snippets does improve accuracy. We use these findings to suggest ways of
improving the debate set up for future data collection efforts.
- Abstract(参考訳): 現在のQAシステムは、生成した回答の説明や証拠なしに、合理的に聞こえるが偽の回答を生成することができる。
これは、機械学習システムにおける信頼を構築するための挑戦である。
我々は、対立する側を考慮して難しい質問が答えられる現実世界の状況からインスピレーションを受けます(Irving et al., 2018)。
複数選択QAの例では、2つの候補解に対する説明を生成するためのトレーニングモデルの初期ステップとして、議論スタイルのセットアップにおいて、正解と誤解の両方のための単一の引数のデータセットを構築した。
コンテキストに精通した人間が、事前に選択した正解と不正確な回答に対して説得力のある説明を書き、その説明がフルコンテキストを読まない人間が正しい回答をより正確に決定できるかどうかをテストします。
設定中の説明が人間の精度を改善するわけではないが、基本条件は、人間の選択したテキストスニペットを提供することで精度が向上することを示している。
これらの知見を用いて,今後のデータ収集に向けた議論を改善する方法を提案する。
関連論文リスト
- Fine-grained Hallucination Detection and Mitigation in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - Overinformative Question Answering by Humans and Machines [26.31070412632125]
人間の回答における過剰な表現性は、質問者の目標に対する関連性を考えることによって引き起こされることを示す。
本研究は, GPT-3が, 実例と認知動機のある説明によって導かれるときの, 刺激的かつ人間的な回答パターンの形式に非常に敏感であることを示す。
論文 参考訳(メタデータ) (2023-05-11T21:41:41Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - WikiWhy: Answering and Explaining Cause-and-Effect Questions [62.60993594814305]
自然言語で答えが正しい理由を説明するために構築されたQAデータセットであるWikiWhyを紹介する。
WikiWhyには、ウィキペディアのさまざまなトピックの事実に基づいて、9000以上の「なぜ」質問回答の3つ組が含まれている。
GPT-3ベースラインは、エンドツーエンドの回答と説明条件において、人間の評価された正しさを38.7%しか達成していない。
論文 参考訳(メタデータ) (2022-10-21T17:59:03Z) - Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension
Questions [26.404441861051875]
2つの競合する解答オプションの議論を人間に提示することで、人間の判断をより正確に行うことができるかどうかを評価する。
これまでの研究では、この形式の議論は人間には役に立たないことが示されている。
議論にアクセスできるかどうかに関わらず、人間は我々のタスクで同じように行動する。
論文 参考訳(メタデータ) (2022-10-19T19:48:50Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Ranking Facts for Explaining Answers to Elementary Science Questions [1.4091801425319965]
小学校の理科試験では、学生は通常4つの選択肢の中から1つの答えを選び、なぜその選択をしたのかを説明することができる。
我々は,人間による事実から回答を導き出す新しい課題について考察する。
説明は、WorldTree corpus内の5000近い候補事実の人間による注釈付きセットから作成されます。
論文 参考訳(メタデータ) (2021-10-18T06:15:11Z) - Prompting Contrastive Explanations for Commonsense Reasoning Tasks [74.7346558082693]
大規模事前学習言語モデル(PLM)は、常識推論タスクにおいて、ほぼ人間に近い性能を達成することができる。
人間の解釈可能な証拠を生成するために、同じモデルを使う方法を示す。
論文 参考訳(メタデータ) (2021-06-12T17:06:13Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z) - QED: A Framework and Dataset for Explanations in Question Answering [27.85923397716627]
Google Natural Questionsデータセットのサブセット上に構築されたQED説明のエキスパートアノテートデータセットをリリースする。
有望な結果は、比較的少量のQEDデータのトレーニングが質問応答を改善することを示唆している。
論文 参考訳(メタデータ) (2020-09-08T23:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。