Fugu-MT 論文翻訳(概要): Findings of MEGA: Maths Explanation with LLMs using the Socratic Method for Active Learning

論文の概要: Findings of MEGA: Maths Explanation with LLMs using the Socratic Method for Active Learning

arxiv url: http://arxiv.org/abs/2507.12079v1
Date: Wed, 16 Jul 2025 09:39:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-17 19:00:11.33795
Title: Findings of MEGA: Maths Explanation with LLMs using the Socratic Method for Active Learning
Title（参考訳）: MEGAの発見:アクティブラーニングのためのソクラティック手法を用いたLCMによる数学的説明
Authors: Tosin Adewumi, Foteini Simistira Liwicki, Marcus Liwicki, Viktor Gardelli, Lama Alkhaled, Hamam Mokayed,
Abstract要約: 一部の学生は数学に苦しむため、数学に関する規律や科目を避けている。我々はAI LLMs (MEGA) によるゲームによる数学の解説をアプローチと呼んでいる。我々は,MEGA法と従来のステップ・バイ・ステップ(CoT)法を比較し,グループ内設計を用いてより優れた手法を確かめた。
参考スコア（独自算出の注目度）: 2.102463496247382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents an intervention study on the effects of the combined methods of (1) the Socratic method, (2) Chain of Thought (CoT) reasoning, (3) simplified gamification and (4) formative feedback on university students' Maths learning driven by large language models (LLMs). We call our approach Mathematics Explanations through Games by AI LLMs (MEGA). Some students struggle with Maths and as a result avoid Math-related discipline or subjects despite the importance of Maths across many fields, including signal processing. Oftentimes, students' Maths difficulties stem from suboptimal pedagogy. We compared the MEGA method to the traditional step-by-step (CoT) method to ascertain which is better by using a within-group design after randomly assigning questions for the participants, who are university students. Samples (n=60) were randomly drawn from each of the two test sets of the Grade School Math 8K (GSM8K) and Mathematics Aptitude Test of Heuristics (MATH) datasets, based on the error margin of 11%, the confidence level of 90%, and a manageable number of samples for the student evaluators. These samples were used to evaluate two capable LLMs at length (Generative Pretrained Transformer 4o (GPT4o) and Claude 3.5 Sonnet) out of the initial six that were tested for capability. The results showed that students agree in more instances that the MEGA method is experienced as better for learning for both datasets. It is even much better than the CoT (47.5% compared to 26.67%) in the more difficult MATH dataset, indicating that MEGA is better at explaining difficult Maths problems.
Abstract（参考訳）: 本稿では,(1)ソクラテス的手法,(2)思考の連鎖(CoT)推論,(3)単純化されたゲーミフィケーション,(4)大規模言語モデル(LLM)による大学生の数学学習に対する形式的フィードバックの併用効果について検討する。我々は,AI LLM (MEGA) によるゲームによる数学の解説をアプローチと呼んでいる。一部の学生は数学に苦しむが、結果として、信号処理を含む多くの分野における数学の重要性にもかかわらず、数学に関連する規律や主題を避けている。しばしば、学生の数学の困難は、最適以下の教育に起因する。我々は,MEGA法を従来のステップ・バイ・ステップ(CoT)法と比較し,学生である参加者に対してランダムに質問を割り当てた後,グループ内設計を用いることで,より優れたものを確認する。サンプル (n=60) は, 誤差マージン11%, 信頼度90%, 管理可能な生徒評価用サンプル数に基づいて, 小学校数学8K(GSM8K) と数学Aptitude Test of Heuristics(MATH) の2つの試験セットからランダムに抽出した。これらのサンプルは、2つの有能なLCM(GPT4o(Generative Pretrained Transformer 4o)とClaude 3.5 Sonnet)の評価に使用された。その結果,MEGA法が両方のデータセットの学習に適しているという事例に,学生は同意することが明らかとなった。より難しいMATHデータセットでは、CoT (47.5%、26.67%) よりもはるかに優れており、MEGAが難しい数学の問題を説明するのに優れていることを示している。

関連論文リスト

SAND-Math: Using LLMs to Generate Novel, Difficult and Useful Mathematics Questions and Answers [10.558690357768336]
textbfSAND-Math (Synthetic Augmented Novel and Difficult Mathematics problem and Solution)を紹介する。まず、スクラッチから高品質な問題を発生させ、次に新しい textbfDifficulty Hiking ステップを通じて、その複雑性を体系的に高めます。平均問題の難易度を5.02から5.98に引き上げることで、AIME25のパフォーマンスを46.38%から49.23%に引き上げる。
論文参考訳（メタデータ） (2025-07-28T05:17:48Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文参考訳（メタデータ） (2023-10-05T17:52:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。