論文の概要: Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of
Large Language Models with Misconceptions
- arxiv url: http://arxiv.org/abs/2310.02439v1
- Date: Tue, 3 Oct 2023 21:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:32:05.595871
- Title: Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of
Large Language Models with Misconceptions
- Title(参考訳): novice learner and expert tutor: 誤解を伴う大規模言語モデルの数学推論能力の評価
- Authors: Naiming Liu, Shashank Sonkar, Zichao Wang, Simon Woodhead, Richard G.
Baraniuk
- Abstract要約: 本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。
我々の第一のアプローチは、初等学習者および専門教師としてLLMをシミュレートすることであり、特定の誤解から生じる数学問題に対する誤った回答を特定することを目的としている。
- 参考スコア(独自算出の注目度): 28.759189115877028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose novel evaluations for mathematical reasoning capabilities of Large
Language Models (LLMs) based on mathematical misconceptions. Our primary
approach is to simulate LLMs as a novice learner and an expert tutor, aiming to
identify the incorrect answer to math question resulted from a specific
misconception and to recognize the misconception(s) behind an incorrect answer,
respectively. Contrary to traditional LLMs-based mathematical evaluations that
focus on answering math questions correctly, our approach takes inspirations
from principles in educational learning sciences. We explicitly ask LLMs to
mimic a novice learner by answering questions in a specific incorrect manner
based on incomplete knowledge; and to mimic an expert tutor by identifying
misconception(s) corresponding to an incorrect answer to a question. Using
simple grade-school math problems, our experiments reveal that, while LLMs can
easily answer these questions correctly, they struggle to identify 1) the
incorrect answer corresponding to specific incomplete knowledge
(misconceptions); 2) the misconceptions that explain particular incorrect
answers. Our study indicates new opportunities for enhancing LLMs' math
reasoning capabilities, especially on developing robust student simulation and
expert tutoring models in the educational applications such as intelligent
tutoring systems.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。
我々の第一のアプローチは、初等学習者および専門教師としてLSMをシミュレートし、特定の誤解から得られた数学問題に対する誤った回答を識別し、誤った回答の背後にある誤解(s)を認識することである。
数学の質問に正しく答えることに焦点を当てた従来のLLMの数学的評価とは対照的に、我々のアプローチは教育学習科学の原理からインスピレーションを得ている。
本研究では,LLMに対して,不完全な知識に基づいて,特定の不完全な質問に答えることによって初心者の学習者を模倣すること,また質問に対する誤った回答に対応する誤解を識別することで専門家の学習者を模倣することを求める。
単純な小学校数学問題を用いて、llmはこれらの質問に正しく答えられるが、彼らは識別に苦慮していることを実験で明らかにした。
1) 特定の不完全な知識に対応する不正確な回答(誤解)
2) 特定の誤った回答を説明する誤解。
本研究は,特に知的指導システムなどの教育応用におけるロバストな学生シミュレーションとエキスパート指導モデルの開発において,llmsの数学推論能力を高める新たな機会を示す。
関連論文リスト
- Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Automate Knowledge Concept Tagging on Math Questions with LLMs [48.5585921817745]
知識概念のタグ付けは、現代の知的教育応用において重要な役割を担っている。
伝統的に、これらの注釈は教育専門家の助けを借りて手作業で行われてきた。
本稿では,Large Language Models (LLM) を用いたタグ付けタスクの自動化について検討する。
論文 参考訳(メタデータ) (2024-03-26T00:09:38Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。