論文の概要: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula
- arxiv url: http://arxiv.org/abs/2408.04226v2
- Date: Fri, 9 Aug 2024 19:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 10:59:25.960823
- Title: Evaluating Language Model Math Reasoning via Grounding in Educational Curricula
- Title(参考訳): 教育カリキュラムにおけるグラウンド化による言語モデル数学推論の評価
- Authors: Li Lucy, Tal August, Rose E. Wang, Luca Soldaini, Courtney Allison, Kyle Lo,
- Abstract要約: 本研究は,言語モデル(LM)の数学的能力を評価するために,数学的内容によって実現されるスキルや概念を識別できるかどうかを考察する。
1つは、Achieve the Core(ATC)のK-12数学スキルと概念を385のきめ細かい記述からなり、もう1つは、これらの標準(MathFish)でラベル付けされた9.9K問題の1つである。
経験豊富な教師と一緒に働くと、LMは問題に関連する標準をタグ付けして検証するのに苦労し、代わりに、真実に近いが微妙な方法で異なるラベルを予測することに気付きます。
- 参考スコア(独自算出の注目度): 25.549869705051606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work presents a novel angle for evaluating language models' (LMs) mathematical abilities, by investigating whether they can discern skills and concepts enabled by math content. We contribute two datasets: one consisting of 385 fine-grained descriptions of K-12 math skills and concepts, or standards, from Achieve the Core (ATC), and another of 9.9K problems labeled with these standards (MathFish). Working with experienced teachers, we find that LMs struggle to tag and verify standards linked to problems, and instead predict labels that are close to ground truth, but differ in subtle ways. We also show that LMs often generate problems that do not fully align with standards described in prompts. Finally, we categorize problems in GSM8k using math standards, allowing us to better understand why some problems are more difficult to solve for models than others.
- Abstract(参考訳): 本研究は,言語モデル(LM)の数学的能力を評価するために,数学的内容によって実現されるスキルや概念を識別できるかどうかを考察する。
1つは、Achieve the Core(ATC)のK-12数学のスキルと概念、あるいは標準を385のきめ細かい記述からなり、もう1つは、これらの標準(MathFish)でラベル付けされた9.9K問題である。
経験豊富な教師と一緒に働くと、LMは問題に関連する標準をタグ付けして検証するのに苦労し、代わりに、真実に近いが微妙な方法で異なるラベルを予測することに気付きます。
また、LMはプロンプトで記述された標準と完全に一致しない問題が発生することもしばしば示している。
最後に、GSM8kの問題を数学標準を用いて分類し、なぜ他のモデルよりも解決が難しいのかをよりよく理解する。
関連論文リスト
- Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。
MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。
MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文 参考訳(メタデータ) (2024-07-11T17:58:58Z) - MathCAMPS: Fine-grained Synthesis of Mathematical Problems From Human Curricula [33.5782208232163]
本研究では,高品質な数学問題を大規模に合成する手法であるMath CAMPSを提案する。
それぞれの標準を形式文法でエンコードし、様々な記号問題とその解をサンプリングする。
我々は、記号構造からフォローアップ質問を導き、それらをフォローアップ単語問題に変換する。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。
提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。
数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文 参考訳(メタデータ) (2024-06-27T17:37:31Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Mathify: Evaluating Large Language Models on Mathematical Problem Solving Tasks [34.09857430966818]
我々は,11番目と12番目の標準数学 NCERT 教科書から得られた数学データセット "MathQuest" を紹介する。
LLaMA-2, WizardMath, MAmmoTHの3つの大きな言語モデルを用いた微調整実験を行った。
この3つのモデルのうち,MAmmoTH-13Bが最も熟練したモデルとして登場し,提示された数理問題の解法において,最高レベルの能力を達成した。
論文 参考訳(メタデータ) (2024-04-19T08:45:42Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MATHWELL: Generating Educational Math Word Problems Using Teacher Annotations [11.267553596118743]
我々は,言語モデルが単語問題を自動的に生成することで,K-8の数学教育を支援する可能性を示唆する。
我々のモデルであるMATHWELLは、教育的適切性を重視した最初のK-8ワード問題生成装置である。
論文 参考訳(メタデータ) (2024-02-24T17:08:45Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。