Fugu-MT 論文翻訳(概要): MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education

論文の概要: MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education

arxiv url: http://arxiv.org/abs/2407.00938v2
Date: Sat, 05 Oct 2024 09:14:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 04:17:33.171057
Title: MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education
Title（参考訳）: MalAlgoQA:大規模言語モデルにおける対実的推論の教育学的評価と教育におけるAIの意義
Authors: Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk,
Abstract要約: 本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。 MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
参考スコア（独自算出の注目度）: 2.872215065231376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MalAlgoQA, a novel dataset designed to evaluate the counterfactual reasoning capabilities of Large Language Models (LLMs) through a pedagogical approach. The dataset comprises mathematics and reading comprehension questions, each accompanied by four answer choices and their corresponding rationales. At the heart of MalAlgoQA are ``malgorithms'' - rationales behind incorrect answer choices that represent flawed yet logically coherent reasoning paths. These malgorithms serve as counterfactual scenarios, allowing us to assess an LLM's ability to identify and analyze flawed reasoning patterns. We propose the Malgorithm Identification task, where LLMs are assessed based on their ability to identify corresponding malgorithm given an incorrect answer choice. To evaluate the model performance, we introduce two metrics: Algorithm Identification Accuracy (AIA) for correct answer rationale identification, and Malgorithm Identification Accuracy (MIA) for incorrect answer rationale identification. Our experiments reveal that state-of-the-art LLMs exhibit significant performance drops in MIA compared to AIA, highlighting the challenges in counterfactual reasoning. Surprisingly, we find that the chain-of-thought prompting technique not only fails to consistently enhance MIA but can sometimes lead to underperformance compared to simple prompting. These findings have important implications for developing LLMs with improved counterfactual reasoning, particularly relevant for AI-powered tutoring systems, where identifying and addressing student misconceptions is essential. MalAlgoQA dataset is available \href{https://github.com/luffycodes/MalAlgoQA-Dataset}{here}.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) の対実的推論能力を評価するための新しいデータセットであるMalAlgoQAを紹介する。データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。 MalAlgoQAの中心にあるのは ``malgorithms'' である。これらのマゴリサムは、欠陥のある推論パターンを識別し分析するLLMの能力を評価するために、反現実的なシナリオとして機能する。そこで本研究では,LLMが不正確な解答を選択すると,それに対応する誤答を識別する能力に基づいて評価する,Malgorithm Identificationタスクを提案する。モデル性能を評価するために,正解理性同定のためのアルゴリズム同定精度(AIA)と正解理性同定のための誤解法同定精度(MIA)の2つの指標を導入する。実験の結果, 現状のLLMはAIAと比較してMIAの大幅な低下を示し, 反事実推論の課題を浮き彫りにした。意外なことに、チェーン・オブ・シークレット・プロンプト技術はMIAを一貫して向上させるだけでなく、単純なプロンプトよりも性能の低下につながることがある。これらの知見は, 学生の誤解の特定と対処が不可欠であるAIを活用した学習システムにおいて, 対実的推論の改善によるLLMの開発に重要な意味を持つ。 MalAlgoQAデータセットは、href{https://github.com/luffycodes/MalAlgoQA-Dataset}{here} で利用可能である。

関連論文リスト

Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文参考訳（メタデータ） (2025-04-01T00:10:10Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Explainable AI needs formal notions of explanation correctness [2.1309989863595677]
医学のような重要な分野における機械学習はリスクをもたらし、規制を必要とする。 1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
論文参考訳（メタデータ） (2024-09-22T20:47:04Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-18T03:12:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。