論文の概要: Evaluating the Rationale Understanding of Critical Reasoning in Logical
Reading Comprehension
- arxiv url: http://arxiv.org/abs/2311.18353v1
- Date: Thu, 30 Nov 2023 08:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:15:56.645841
- Title: Evaluating the Rationale Understanding of Critical Reasoning in Logical
Reading Comprehension
- Title(参考訳): 論理読解における批判的推論の理論的理解の評価
- Authors: Akira Kawabata, Saku Sugawara
- Abstract要約: 論理的読解データセットから、なぜ解答オプションを選択するか、あるいは排除すべきかを説明する、合理的テキストをクラウドソースします。
実験の結果、最近の大規模言語モデル(例えば、インストラクションGPT)は、たとえ主要な疑問に正しく答えられるとしても、要求に答えることに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 13.896697187967547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To precisely evaluate a language model's capability for logical reading
comprehension, we present a dataset for testing the understanding of the
rationale behind critical reasoning. For questions taken from an existing
multiplechoice logical reading comprehension dataset, we crowdsource rationale
texts that explain why we should select or eliminate answer options, resulting
in 3,003 multiple-choice subquestions that are associated with 943 main
questions. Experiments on our dataset show that recent large language models
(e.g., InstructGPT) struggle to answer the subquestions even if they are able
to answer the main questions correctly. We find that the models perform
particularly poorly in answering subquestions written for the incorrect options
of the main questions, implying that the models have a limited capability for
explaining why incorrect alternatives should be eliminated. These results
suggest that our dataset encourages further investigation into the critical
reasoning ability of language models while focusing on the elimination process
of relevant alternatives.
- Abstract(参考訳): 言語モデルの論理的読解能力を評価するために,批判的推論の背後にある理性を理解するためのデータセットを提案する。
既存のマルチチョイス論理読解データセットから得られた質問に対して、なぜ回答オプションを選択したり削除すべきなのかを説明する合理テキストをクラウドソースし、933のメイン質問に関連付けられた3,003のマルチチョイスサブクエストを生成します。
私たちのデータセットでの実験では、最近の大規模言語モデル(例えばinstructgpt)は、たとえ主要な質問に正しく答えられたとしても、サブクエストへの答えに苦労しています。
我々は、モデルが主な質問の間違った選択肢のために書かれたサブクエスチョーションに特にうまく対応できないことを見出し、モデルがなぜ間違った代替案を排除するべきかを説明する能力が限られていることを示唆する。
これらの結果から,我々のデータセットは,関連する選択肢の排除プロセスに着目しつつ,言語モデルの批判的推論能力のさらなる調査を促進することが示唆された。
関連論文リスト
- Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - APOLLO: A Simple Approach for Adaptive Pretraining of Language Models
for Logical Reasoning [73.3035118224719]
本稿では,論理的推論能力を改善した適応事前学習型言語モデルAPOLLOを提案する。
APOLLOはReClorで比較可能であり、LogiQAでベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-19T07:40:02Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Inferring Implicit Relations with Language Models [38.70860544044594]
そこで本研究では,現在のモデルが暗黙的推論問題に苦しむ理由を考察する。
我々は、ある質問に対して、モデルが概念-関係ペアのリストを出力すべきである、IMPLICITRelationSというベンチマークを構築した。
IMPLICITrelationSを用いて、GPT-3ファミリーのモデルを評価し、これらのモデルが暗黙的推論QAタスクに苦戦しているのに対して、暗黙的関係を推測することに成功した。
論文 参考訳(メタデータ) (2022-04-28T21:00:54Z) - ListReader: Extracting List-form Answers for Opinion Questions [18.50111430378249]
ListReaderは、リスト形式の回答のためのニューラルネットワーク抽出QAモデルである。
質問と内容のアライメントの学習に加えて,異種グラフニューラルネットワークを導入する。
提案モデルでは,スパンレベルと文レベルのいずれの回答も抽出可能な抽出設定を採用する。
論文 参考訳(メタデータ) (2021-10-22T10:33:08Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。