論文の概要: Large Language Models Don't Make Sense of Word Problems. A Scoping Review from a Mathematics Education Perspective
- arxiv url: http://arxiv.org/abs/2506.24006v1
- Date: Mon, 30 Jun 2025 16:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.148069
- Title: Large Language Models Don't Make Sense of Word Problems. A Scoping Review from a Mathematics Education Perspective
- Title(参考訳): 大規模言語モデルでは単語の問題の感覚は得られない : 数学教育の視点からのスコーピングのレビュー
- Authors: Anselm R. Strohmaier, Wim Van Dooren, Kathrin Seßler, Brian Greer, Lieven Verschaffel,
- Abstract要約: ChatGPTのような大規模言語モデル(LLM)の進歩は、どのように教育に組み込むことができるのかという疑問を提起する。
LLMは手軽にテキスト入力を処理できるので、数学的な単語問題を解くのに適しているように見える。
しかし、彼らの本当の能力、それが現実世界の文脈を理解できるかどうか、そして教室への影響は、いまだに不明である。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The progress of Large Language Models (LLMs) like ChatGPT raises the question of how they can be integrated into education. One hope is that they can support mathematics learning, including word-problem solving. Since LLMs can handle textual input with ease, they appear well-suited for solving mathematical word problems. Yet their real competence, whether they can make sense of the real-world context, and the implications for classrooms remain unclear. We conducted a scoping review from a mathematics-education perspective, including three parts: a technical overview, a systematic review of word problems used in research, and a state-of-the-art empirical evaluation of LLMs on mathematical word problems. First, in the technical overview, we contrast the conceptualization of word problems and their solution processes between LLMs and students. In computer-science research this is typically labeled mathematical reasoning, a term that does not align with usage in mathematics education. Second, our literature review of 213 studies shows that the most popular word-problem corpora are dominated by s-problems, which do not require a consideration of realities of their real-world context. Finally, our evaluation of GPT-3.5-turbo, GPT-4o-mini, GPT-4.1, and o3 on 287 word problems shows that most recent LLMs solve these s-problems with near-perfect accuracy, including a perfect score on 20 problems from PISA. LLMs still showed weaknesses in tackling problems where the real-world context is problematic or non-sensical. In sum, we argue based on all three aspects that LLMs have mastered a superficial solution process but do not make sense of word problems, which potentially limits their value as instructional tools in mathematics classrooms.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)の進歩は、どのように教育に組み込むことができるのかという疑問を提起する。
一つの希望は、単語プロブレムの解決を含む数学の学習をサポートすることだ。
LLMは手軽にテキスト入力を処理できるので、数学的な単語問題を解くのに適しているように見える。
しかし、実世界の文脈を理解できるかどうか、教室がもたらす意味はいまだ不明である。
本研究では, 数学教育の観点からのスコーピング・レビューを行い, 技術的概要, 研究に用いた語学問題の体系的レビュー, 数学的単語問題に対するLLMの最先端の実証的評価を行った。
まず、技術的概要において、言語問題の概念化とその解決過程をLLMと学生間で比較する。
計算機科学研究において、これは一般に数学教育における用法と一致しない数学的推論と呼ばれる。
第2に、213の研究では、最も人気のある単語プロブレムコーパスがsプロブレムに支配されていることを示し、現実世界の文脈の現実性を考慮しない。
最後に, 287 単語問題に対する GPT-3.5-turbo, GPT-4o-mini, GPT-4.1, o3 の評価を行ったところ,最近の LLM ではこれらの s-problem をほぼ完全精度で解き, PISA から 20 個の問題に対する完全スコアが得られた。
LLMは、現実世界のコンテキストが問題である、あるいは意味のない問題に対処する際の弱点をまだ示している。
総じて、LLMが表層解法を習得したにもかかわらず、単語の問題を理解しないという3つの側面は、数学教室における教育ツールとしての価値を制限している可能性がある。
関連論文リスト
- CogMath: Assessing LLMs' Authentic Mathematical Ability from a Human Cognitive Perspective [68.94793547575343]
CogMathは、人間の推論プロセスを3段階に定式化している。
各次元において,この次元からLLMの熟達度を評価する問合せを生成するために,emphInquiry-emphJudge-emphReference'のマルチエージェントシステムの開発を行う。
LLMは、9次元からのすべての問い合わせに優れている場合にのみ、真に問題をマスターすると考えられている。
論文 参考訳(メタデータ) (2025-06-04T22:00:52Z) - MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。
mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文 参考訳(メタデータ) (2025-02-14T14:44:22Z) - Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula [25.549869705051606]
我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。
本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。
LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
論文 参考訳(メタデータ) (2024-08-08T05:28:34Z) - FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。