論文の概要: Beyond Final Answers: Evaluating Large Language Models for Math Tutoring
- arxiv url: http://arxiv.org/abs/2503.16460v1
- Date: Sun, 23 Feb 2025 15:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 09:25:11.927746
- Title: Beyond Final Answers: Evaluating Large Language Models for Math Tutoring
- Title(参考訳): 最終回答を超えて: 数学チューニングのための大規模言語モデルの評価
- Authors: Adit Gupta, Jennifer Reddig, Tommaso Calo, Daniel Weitekamp, Christopher J. MacLellan,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の正しさと品質を評価するための2つの手法を提案する。
最初のアプローチは、LLM問題解決能力を評価するためのテストベッドとして、大学代数のためのインテリジェントなチュータリングシステムを使用する。
2つ目のアプローチは、LLMを問題解決者ではなく家庭教師として評価する。
- 参考スコア(独自算出の注目度): 0.24197860834245388
- License:
- Abstract: Researchers have made notable progress in applying Large Language Models (LLMs) to solve math problems, as demonstrated through efforts like GSM8k, ProofNet, AlphaGeometry, and MathOdyssey. This progress has sparked interest in their potential use for tutoring students in mathematics. However, the reliability of LLMs in tutoring contexts -- where correctness and instructional quality are crucial -- remains underexplored. Moreover, LLM problem-solving capabilities may not necessarily translate into effective tutoring support for students. In this work, we present two novel approaches to evaluate the correctness and quality of LLMs in math tutoring contexts. The first approach uses an intelligent tutoring system for college algebra as a testbed to assess LLM problem-solving capabilities. We generate benchmark problems using the tutor, prompt a diverse set of LLMs to solve them, and compare the solutions to those generated by the tutor. The second approach evaluates LLM as tutors rather than problem solvers. We employ human evaluators, who act as students seeking tutoring support from each LLM. We then assess the quality and correctness of the support provided by the LLMs via a qualitative coding process. We applied these methods to evaluate several ChatGPT models, including 3.5 Turbo, 4, 4o, o1-mini, and o1-preview. Our findings show that when used as problem solvers, LLMs generate correct final answers for 85.5% of the college algebra problems tested. When employed interactively as tutors, 90% of LLM dialogues show high-quality instructional support; however, many contain errors -- only 56.6% are entirely correct. We conclude that, despite their potential, LLMs are not yet suitable as intelligent tutors for math without human oversight or additional mechanisms to ensure correctness and quality.
- Abstract(参考訳): GSM8k、ProofNet、AlphaGeometry、MathOdysseyなどによって実証されたように、研究者は数学の問題を解決するためにLarge Language Models (LLMs)を適用した。
この進歩は、数学の学生を指導する可能性への関心を喚起した。
しかし, 学習環境におけるLLMの信頼性 - 正確性と教育的品質が重要である - はいまだ検討されていない。
さらに, LLM問題解決能力は, 生徒の効果的な指導支援に必ずしも変換されない場合がある。
本研究では,数学教育の文脈におけるLLMの正しさと品質を評価するための2つの新しい手法を提案する。
最初のアプローチは、LLM問題解決能力を評価するためのテストベッドとして、大学代数のためのインテリジェントなチュータリングシステムを使用する。
我々は、チュータを用いてベンチマーク問題を生成し、様々なLCMにそれらを解くよう促し、チュータが生成したものと比較する。
2つ目のアプローチは、LLMを問題解決者ではなく家庭教師として評価する。
我々は,LLMの教育支援を求める学生として働く人間評価士を雇用している。
次に,LCMが提供しているサポートの質と正しさを,定性的な符号化プロセスを用いて評価する。
これらの手法を用いて, 3.5 Turbo, 4, 4o, o1-mini, o1-previewなどのChatGPTモデルの評価を行った。
この結果から, LLM が問題解法として用いると, 85.5% の正解が得られた。
教師として対話的に使用されると、LLM対話の90%は高品質な教育支援を示すが、エラーは56.6%に過ぎなかった。
その可能性にもかかわらず、LLMは人間の監視や、正確さと品質を保証するための追加のメカニズムがなければ、数学の知的チューターとしてはまだ適していないと結論付けている。
関連論文リスト
- U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs [2.2330469342127577]
教材から得られた大学レベルの未発表問題1,100件の新規ベンチマークであるU-MATHを紹介する。
6つの中核領域でバランスが取れており、20%のマルチモーダル問題がある。
U-MATH問題のオープンな性質を考えると、生成した解の正しさを判断するために LLM を用いる。
その結果,LLMはテキストベースのタスクでは最大63%の精度しか得られず,視覚的問題では45%以下であった。
論文 参考訳(メタデータ) (2024-12-04T10:44:50Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure [36.83786872708736]
1対1の授業は、最も効果的な教育方法の1つである。
我々は、LSMプロンプトを最適化し、遷移グラフとして表される事前定義されたマルチターンチューリング計画に従うアルゴリズムであるStratLを開発した。
ケーススタディとして,先進的で効果的な学習設計であるProductive Failure (PF) に続く,高校数学のプロトタイプチューターを作成する。
論文 参考訳(メタデータ) (2024-10-03T16:15:41Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of
Large Language Models with Misconceptions [28.759189115877028]
本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。
我々の第一のアプローチは、初等学習者および専門教師としてLLMをシミュレートすることであり、特定の誤解から生じる数学問題に対する誤った回答を特定することを目的としている。
論文 参考訳(メタデータ) (2023-10-03T21:19:50Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。