Fugu-MT 論文翻訳(概要): Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula

論文の概要: Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula

arxiv url: http://arxiv.org/abs/2408.04226v3
Date: Fri, 4 Oct 2024 18:31:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 12:22:45.576792
Title: Mathfish: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula
Title（参考訳）: Mathfish:教育カリキュラムのグラウンド化による言語モデル数学推論の評価
Authors: Li Lucy, Tal August, Rose E. Wang, Luca Soldaini, Courtney Allison, Kyle Lo,
Abstract要約: 我々は,言語モデル(LM)の数学的能力が,数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検討する。本研究では,算数問題を評価するためのLMの能力を評価するための2つのタスクを開発する。 LMは、問題に関連する標準をタグ付けして検証し、代わりに、真実に近いが微妙な方法で異なるラベルを予測するのに苦労している。
参考スコア（独自算出の注目度）: 25.549869705051606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To ensure that math curriculum is grade-appropriate and aligns with critical skills or concepts in accordance with educational standards, pedagogical experts can spend months carefully reviewing published math problems. Drawing inspiration from this process, our work presents a novel angle for evaluating language models' (LMs) mathematical abilities, by investigating whether they can discern skills and concepts enabled by math content. We contribute two datasets: one consisting of 385 fine-grained descriptions of K-12 math skills and concepts, or standards, from Achieve the Core (ATC), and another of 9.9K math problems labeled with these standards (MathFish). We develop two tasks for evaluating LMs' abilities to assess math problems: (1) verifying whether a problem aligns with a given standard, and (2) tagging a problem with all aligned standards. Working with experienced teachers, we find that LMs struggle to tag and verify standards linked to problems, and instead predict labels that are close to ground truth, but differ in subtle ways. We also show that LMs often generate problems that do not fully align with standards described in prompts, suggesting the need for careful scrutiny on use cases involving LMs for generating curricular materials. Finally, we categorize problems in GSM8k using math standards, allowing us to better understand why some problems are more difficult to solve for models than others.
Abstract（参考訳）: 数学カリキュラムが学級に適しており、教育基準に従って重要なスキルや概念と整合することを保証するため、教育専門家は、公表された数学問題を何ヶ月も慎重にレビューすることができる。このプロセスからインスピレーションを得て,本研究は,言語モデル(LM)の数学的能力を評価するための新しい角度を示し,それらが数学コンテンツによって実現されるスキルや概念を識別できるかどうかを検証した。 1つは、Achieve the Core(ATC)のK-12数学スキルと概念、あるいは標準を385のきめ細かい記述からなり、もう1つは、これらの標準(MathFish)をラベル付けした9.9K数学問題の1つである。本研究では, 1 つの問題が与えられた基準に合致するかどうかを検証し, 2 つの問題に一貫した基準を付したタグ付けを行うことにより, LM の数学的問題を評価する能力を評価するための2つのタスクを開発する。経験豊富な教師と一緒に働くと、LMは問題に関連する標準をタグ付けして検証するのに苦労し、代わりに、真実に近いが微妙な方法で異なるラベルを予測することに気付きます。また, LMは, プロンプトに記載されている標準と完全に一致しない問題が発生することが少なく, かつ, LMを巻き込むユースケースに対して, 慎重に精査する必要があることが示唆された。最後に、GSM8kの問題を数学標準を用いて分類し、なぜ他のモデルよりも解決が難しいのかをよりよく理解する。

関連論文リスト

Large Language Models Don't Make Sense of Word Problems. A Scoping Review from a Mathematics Education Perspective [0.6990493129893112]
ChatGPTのような大規模言語モデル(LLM)の進歩は、どのように教育に組み込むことができるのかという疑問を提起する。 LLMは手軽にテキスト入力を処理できるので、数学的な単語問題を解くのに適しているように見える。しかし、彼らの本当の能力、それが現実世界の文脈を理解できるかどうか、そして教室への影響は、いまだに不明である。
論文参考訳（メタデータ） (2025-06-30T16:10:42Z)
MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。 MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。 MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文参考訳（メタデータ） (2024-07-11T17:58:58Z)
MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文参考訳（メタデータ） (2024-07-01T01:56:28Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。 LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文参考訳（メタデータ） (2024-04-19T08:45:42Z)
MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。しかし、数学的な問題を解く能力は依然として不十分である。高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文参考訳（メタデータ） (2024-03-05T11:42:59Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations [11.267553596118743]
我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。
論文参考訳（メタデータ） (2024-02-24T17:08:45Z)
Towards a Holistic Understanding of Mathematical Questions with Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文参考訳（メタデータ） (2023-01-18T14:23:29Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。