論文の概要: EasyMath: A 0-shot Math Benchmark for SLMs
- arxiv url: http://arxiv.org/abs/2505.14852v1
- Date: Tue, 20 May 2025 19:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.721976
- Title: EasyMath: A 0-shot Math Benchmark for SLMs
- Title(参考訳): EasyMath: SLMの0ショット数学ベンチマーク
- Authors: Drishya Karki, Michiel Kamphuis, Angelecia Frey,
- Abstract要約: EasyMathは、小さな言語モデルにおける実用的な数学推論のためのコンパクトなベンチマークである。
基本的な算術や演算の順序から単語の問題まで、13のカテゴリをカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: EasyMath is a compact benchmark for practical math reasoning in small language models. It covers thirteen categories, from basic arithmetic and order of operations to word problems, algebraic expressions, edge cases, and omits specialist topics. We tested 23 models (14M to 4B parameters) using exact, numerical, and symbolic checks on free-form answers in a zero-shot setting. Accuracy rises with size and training, chain-of-thought adds modest gains, and consistency improves at scale.
- Abstract(参考訳): EasyMathは、小さな言語モデルにおける実用的な数学推論のためのコンパクトなベンチマークである。
基本的な算術や演算の順序から語問題、代数的表現、エッジケース、省略特殊トピックまで、13のカテゴリをカバーしている。
ゼロショット設定では,23種類のモデル(14Mから4Bのパラメータ)を,厳密,数値,記号チェックを用いて検証した。
サイズやトレーニングによって正確さが向上し,チェーン・オブ・シントが適度に向上し,一貫性が向上します。
関連論文リスト
- UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Math Neurosurgery: Isolating Language Models' Math Reasoning Abilities Using Only Forward Passes [10.314228434999924]
数学推論は人工知能の目印であり、数学教育を含むいくつかの領域に影響を及ぼす。
大規模言語モデルパラメータ内での数学推論のエンコード方法や、それがモデル内で孤立可能なスキルであるかどうかについて、いくつかの研究がおこなわれている。
フォワードパスのみを用いて LLM における算数固有パラメータを分離する計算効率のよい方法である MathNeuro を導入する。
MathNeuroは、パラメータの重要度を計算するために重みとアクティベーションを使用することで、既存の作業の上に構築されている。
論文 参考訳(メタデータ) (2024-10-22T12:00:58Z) - MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models [91.66694225955872]
数学的推論を専門とする微調整言語モデルであるMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始める。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
論文 参考訳(メタデータ) (2023-09-21T17:45:42Z) - GPT Can Solve Mathematical Problems Without a Calculator [24.114064917059565]
大規模言語モデルでは,データ漏洩を伴わずに,ほぼ100%の精度で算術演算を正確に行うことができることを示す。
また、GLM-10Bから微調整した我々のMathGLMは、5000サンプルの中国の数学問題テストセットにおいて、GPT-4と同様の性能を発揮することを示した。
論文 参考訳(メタデータ) (2023-09-06T06:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。