論文の概要: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities
- arxiv url: http://arxiv.org/abs/2407.00938v1
- Date: Mon, 1 Jul 2024 03:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:55:54.621923
- Title: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities
- Title(参考訳): MalAlgoQA: 対実的推論能力評価のための教育的アプローチ
- Authors: Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk,
- Abstract要約: 本稿では,Large Language Models (LLM) の対実的推論能力を評価するために設計された新しいデータセットであるMalAlgoQAを紹介する。
データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。
私たちは、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を与えます。
- 参考スコア(独自算出の注目度): 2.872215065231376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MalAlgoQA, a novel dataset designed to evaluate the counterfactual reasoning capabilities of Large Language Models (LLMs) through a pedagogical approach. The dataset comprises mathematics and reading comprehension questions, each accompanied by four answer choices and their corresponding rationales. We focus on the incorrect answer rationales, termed "malgorithms", which highlights flawed reasoning steps leading to incorrect answers and offers valuable insights into erroneous thought processes. We also propose the Malgorithm Identification task, where LLMs are assessed based on their ability to identify corresponding malgorithm given an incorrect answer choice. To evaluate the model performance, we introduce two metrics: Algorithm Identification Accuracy (AIA) for correct answer rationale identification, and Malgorithm Identification Accuracy (MIA) for incorrect answer rationale identification. The task is challenging since state-of-the-art LLMs exhibit significant drops in MIA as compared to AIA. Moreover, we find that the chain-of-thought prompting technique not only fails to consistently enhance MIA, but can also lead to underperformance compared to simple prompting. These findings hold significant implications for the development of more cognitively-inspired LLMs to improve their counterfactual reasoning abilities, particularly through a pedagogical perspective where understanding and rectifying student misconceptions are crucial.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の対実的推論能力を評価するための新しいデータセットであるMalAlgoQAを紹介する。
データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。
我々は、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を提供する「マルゴリズム」と呼ばれる。
また,LLMを不正確な解答を選択すると,対応する誤答を識別する能力に基づいて評価するMalgorithm Identificationタスクを提案する。
モデル性能を評価するために,正解理性同定のためのアルゴリズム同定精度(AIA)と正解理性同定のための誤解法同定精度(MIA)の2つの指標を導入する。
現状のLLMでは、AIAと比較してMIAが大幅に低下しているため、この課題は難しい。
さらに,このチェーン・オブ・シークレット・プロンプト技術はMIAを継続的に向上させるだけでなく,単純なプロンプトに比べて性能の低下につながることも見出した。
これらの知見は, 学生の誤解の理解と是正が不可欠である教育的視点を通じて, 対実的推論能力を改善するために, より認知的に着想を得たLLMの開発に重要な意味を持つ。
関連論文リスト
- Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
帰属的有理は帰属的有理数よりも人称有理数とよく一致していることを示す。
さらに,従来の研究で特定されたプロンプトベース手法の忠実度制限は,その崩壊予測と関係があることが示唆された。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - LLMs can Find Mathematical Reasoning Mistakes by Pedagogical Chain-of-Thought [28.122761006724925]
PedCoT(Pedagogical Chain-of-Thought)は、推論ミスの識別のガイドとして設計されている。
PedCoTは、プロンプト(PPP)設計のための教育原則、2段階インタラクションプロセス(TIP)およびグラウンドドPedCoTプロンプトからなる。
提案手法は,信頼性の高い数学的誤り識別の目標を達成し,自動解答グレーディングの基盤を提供する。
論文 参考訳(メタデータ) (2024-05-09T07:37:34Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。