論文の概要: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities
- arxiv url: http://arxiv.org/abs/2407.00938v1
- Date: Mon, 1 Jul 2024 03:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:55:54.621923
- Title: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities
- Title(参考訳): MalAlgoQA: 対実的推論能力評価のための教育的アプローチ
- Authors: Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk,
- Abstract要約: 本稿では,Large Language Models (LLM) の対実的推論能力を評価するために設計された新しいデータセットであるMalAlgoQAを紹介する。
データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。
私たちは、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を与えます。
- 参考スコア(独自算出の注目度): 2.872215065231376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MalAlgoQA, a novel dataset designed to evaluate the counterfactual reasoning capabilities of Large Language Models (LLMs) through a pedagogical approach. The dataset comprises mathematics and reading comprehension questions, each accompanied by four answer choices and their corresponding rationales. We focus on the incorrect answer rationales, termed "malgorithms", which highlights flawed reasoning steps leading to incorrect answers and offers valuable insights into erroneous thought processes. We also propose the Malgorithm Identification task, where LLMs are assessed based on their ability to identify corresponding malgorithm given an incorrect answer choice. To evaluate the model performance, we introduce two metrics: Algorithm Identification Accuracy (AIA) for correct answer rationale identification, and Malgorithm Identification Accuracy (MIA) for incorrect answer rationale identification. The task is challenging since state-of-the-art LLMs exhibit significant drops in MIA as compared to AIA. Moreover, we find that the chain-of-thought prompting technique not only fails to consistently enhance MIA, but can also lead to underperformance compared to simple prompting. These findings hold significant implications for the development of more cognitively-inspired LLMs to improve their counterfactual reasoning abilities, particularly through a pedagogical perspective where understanding and rectifying student misconceptions are crucial.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の対実的推論能力を評価するための新しいデータセットであるMalAlgoQAを紹介する。
データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。
我々は、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を提供する「マルゴリズム」と呼ばれる。
また,LLMを不正確な解答を選択すると,対応する誤答を識別する能力に基づいて評価するMalgorithm Identificationタスクを提案する。
モデル性能を評価するために,正解理性同定のためのアルゴリズム同定精度(AIA)と正解理性同定のための誤解法同定精度(MIA)の2つの指標を導入する。
現状のLLMでは、AIAと比較してMIAが大幅に低下しているため、この課題は難しい。
さらに,このチェーン・オブ・シークレット・プロンプト技術はMIAを継続的に向上させるだけでなく,単純なプロンプトに比べて性能の低下につながることも見出した。
これらの知見は, 学生の誤解の理解と是正が不可欠である教育的視点を通じて, 対実的推論能力を改善するために, より認知的に着想を得たLLMの開発に重要な意味を持つ。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Explainable AI needs formal notions of explanation correctness [2.1309989863595677]
医学のような重要な分野における機械学習はリスクをもたらし、規制を必要とする。
1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。
現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
論文 参考訳(メタデータ) (2024-09-22T20:47:04Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。
本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T03:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。