論文の概要: ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark
- arxiv url: http://arxiv.org/abs/2505.23851v1
- Date: Wed, 28 May 2025 23:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.568801
- Title: ASyMOB: Algebraic Symbolic Mathematical Operations Benchmark
- Title(参考訳): ASyMOB:代数的シンボリックな数学的操作ベンチマーク
- Authors: Michael Shalyt, Rotem Elimelech, Ido Kaminer,
- Abstract要約: 大規模言語モデル(LLM)は、大学レベルの記号数学において、急速に熟練度に近づいている。
本稿では,記号操作に特化した新しい評価フレームワークであるASyMOBを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) are rapidly approaching the level of proficiency in university-level symbolic mathematics required for applications in advanced science and technology. However, existing benchmarks fall short in assessing the core skills of LLMs in symbolic mathematics-such as integration, differential equations, and algebraic simplification. To address this gap, we introduce ASyMOB, a novel assessment framework focused exclusively on symbolic manipulation, featuring 17,092 unique math challenges, organized by similarity and complexity. ASyMOB enables analysis of LLM generalization capabilities by comparing performance in problems that differ by simple numerical or symbolic `perturbations'. Evaluated LLMs exhibit substantial degradation in performance for all perturbation types (up to -70.3%), suggesting reliance on memorized patterns rather than deeper understanding of symbolic math, even among models achieving high baseline accuracy. Comparing LLM performance to computer algebra systems, we identify examples where they fail while LLMs succeed, as well as problems solved only by combining both approaches. Models capable of integrated code execution yielded higher accuracy compared to their performance without code, particularly stabilizing weaker models (up to +33.1% for certain perturbation types). Notably, the most advanced models (o4-mini, Gemini 2.5 Flash) demonstrate not only high symbolic math proficiency (scoring 96.8% and 97.6% on the unperturbed set), but also remarkable robustness against perturbations, (-21.7% and -21.2% vs. average -50.4% for the other models). This may indicate a recent "phase transition" in the generalization capabilities of frontier LLMs. It remains to be seen whether the path forward lies in deeper integration with sophisticated external tools, or in developing models so capable that symbolic math systems like CAS become unnecessary.
- Abstract(参考訳): 大規模言語モデル(LLM)は、先進科学や技術への応用に必要な大学レベルの記号数学の習熟度に急速に近づいている。
しかし、既存のベンチマークは、積分、微分方程式、代数的単純化など、記号数学におけるLLMのコアスキルを評価するのに不足している。
このギャップに対処するために,シンボリックな操作に特化した新しいアセスメントフレームワークであるASyMOBを紹介した。
ASyMOBは、単純な数値や象徴的な「摂動」によって異なる問題における性能を比較することで、LLMの一般化能力の解析を可能にする。
評価されたLLMは、全ての摂動タイプ(最大-70.3%)のパフォーマンスが著しく低下し、高いベースライン精度を達成するモデルにおいても、記号数学の深い理解よりも記憶パターンに依存することが示唆された。
LLMの性能を計算機代数システムと比較し、LLMが成功する間に失敗する事例と、両方のアプローチを組み合わせることでのみ解決される問題を同定する。
コード実行を統合できるモデルは、コードなしでのパフォーマンスよりも精度が高く、特に弱いモデル(特定の摂動型では+33.1%)を安定化させた。
特に、最も先進的なモデル(o4-mini、Gemini 2.5 Flash)は、高い記号的な数学の習熟度(非摂動集合では96.8%と97.6%)を示すだけでなく、摂動に対する顕著な堅牢性(他のモデルでは-21.7%と-21.2%対平均-50.4%)を示した。
これは、フロンティアLSMの一般化能力における最近の「相転移」を示しているかもしれない。
進路が高度な外部ツールとのより深い統合にあるのか、CASのような記号的な数学系が不要になるようなモデルを開発するのかは、まだわからない。
関連論文リスト
- Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning [27.562284768743694]
大規模言語モデル(LLM)は、証明システム内で証明ステップを生成することによって、数学的定理を正式に証明することができる。
本稿では,LLMが学習した数学的直観と,記号的手法によって符号化された領域固有の洞察を相乗化する,ニューロシンボリック・戦術生成器を提案する。
複数の数学コンペティションから161の挑戦的不等式を評価する。
論文 参考訳(メタデータ) (2025-02-19T15:54:21Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning [83.03531832811386]
BoostStep はステップ整列 ICL の例を通して推論精度を向上させる方法である。
チェーン・オブ・シークレット(CoT)とツリー検索アルゴリズムをシームレスに統合する。
AIMEにおけるDeepSeek-R1-671Bのパフォーマンスを2.2%改善し、MATHデータセットからの単純な例のみを活用する。
論文 参考訳(メタデータ) (2025-01-06T18:59:13Z) - HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。