Fugu-MT 論文翻訳(概要): MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities

論文の概要: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities

arxiv url: http://arxiv.org/abs/2407.00938v1
Date: Mon, 1 Jul 2024 03:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 00:55:54.621923
Title: MalAlgoQA: A Pedagogical Approach for Evaluating Counterfactual Reasoning Abilities
Title（参考訳）: MalAlgoQA: 対実的推論能力評価のための教育的アプローチ
Authors: Naiming Liu, Shashank Sonkar, Myco Le, Richard Baraniuk,
Abstract要約: 本稿では,Large Language Models (LLM) の対実的推論能力を評価するために設計された新しいデータセットであるMalAlgoQAを紹介する。データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。私たちは、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を与えます。
参考スコア（独自算出の注目度）: 2.872215065231376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces MalAlgoQA, a novel dataset designed to evaluate the counterfactual reasoning capabilities of Large Language Models (LLMs) through a pedagogical approach. The dataset comprises mathematics and reading comprehension questions, each accompanied by four answer choices and their corresponding rationales. We focus on the incorrect answer rationales, termed "malgorithms", which highlights flawed reasoning steps leading to incorrect answers and offers valuable insights into erroneous thought processes. We also propose the Malgorithm Identification task, where LLMs are assessed based on their ability to identify corresponding malgorithm given an incorrect answer choice. To evaluate the model performance, we introduce two metrics: Algorithm Identification Accuracy (AIA) for correct answer rationale identification, and Malgorithm Identification Accuracy (MIA) for incorrect answer rationale identification. The task is challenging since state-of-the-art LLMs exhibit significant drops in MIA as compared to AIA. Moreover, we find that the chain-of-thought prompting technique not only fails to consistently enhance MIA, but can also lead to underperformance compared to simple prompting. These findings hold significant implications for the development of more cognitively-inspired LLMs to improve their counterfactual reasoning abilities, particularly through a pedagogical perspective where understanding and rectifying student misconceptions are crucial.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) の対実的推論能力を評価するための新しいデータセットであるMalAlgoQAを紹介する。データセットは、数学と理解的な質問を読み取り、それぞれに4つの答えの選択とそれに対応する有理性が伴う。我々は、誤った答えの合理性に注目し、誤った答えにつながる欠陥のある推論ステップを強調し、誤った思考プロセスに関する貴重な洞察を提供する「マルゴリズム」と呼ばれる。また,LLMを不正確な解答を選択すると,対応する誤答を識別する能力に基づいて評価するMalgorithm Identificationタスクを提案する。モデル性能を評価するために,正解理性同定のためのアルゴリズム同定精度(AIA)と正解理性同定のための誤解法同定精度(MIA)の2つの指標を導入する。現状のLLMでは、AIAと比較してMIAが大幅に低下しているため、この課題は難しい。さらに,このチェーン・オブ・シークレット・プロンプト技術はMIAを継続的に向上させるだけでなく,単純なプロンプトに比べて性能の低下につながることも見出した。これらの知見は, 学生の誤解の理解と是正が不可欠である教育的視点を通じて, 対実的推論能力を改善するために, より認知的に着想を得たLLMの開発に重要な意味を持つ。

関連論文リスト

Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics [15.695635219034328]
我々は,コード支援型LCM生成プログラムを,数理推論タスクに応答して詳細に解析する。この結果から, モデルの性能が, 問題の解法として実装された論理に大きく影響していることが示唆された。
論文参考訳（メタデータ） (2025-04-24T15:34:24Z)
Brains vs. Bytes: Evaluating LLM Proficiency in Olympiad Mathematics [2.489157527463306]
大規模言語モデル(LLM)は、数学的推論タスクにおいて顕著な進歩を示している。大規模言語モデル(LLM)の最近の進歩は、数学的推論タスクの顕著な進歩を示している。
論文参考訳（メタデータ） (2025-04-01T00:10:10Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Explainable AI needs formal notions of explanation correctness [2.1309989863595677]
医学のような重要な分野における機械学習はリスクをもたらし、規制を必要とする。 1つの要件は、リスクの高いアプリケーションにおけるMLシステムの決定は、人間に理解可能なものであるべきです。現在の形式では、XAIはMLの品質管理に不適であり、それ自体は精査が必要である。
論文参考訳（メタデータ） (2024-09-22T20:47:04Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文参考訳（メタデータ） (2023-11-14T07:13:10Z)
GraphReason: Enhancing Reasoning Capabilities of Large Language Models through A Graph-Based Verification Approach [0.0]
大きな言語モデル(LLM)は印象的な推論機能を示しています。本稿では,LLMの推論能力をさらに向上するグラフベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-18T03:12:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。