論文の概要: MatheMagic: Generating Dynamic Mathematics Benchmarks Robust to Memorization
- arxiv url: http://arxiv.org/abs/2510.05962v1
- Date: Tue, 07 Oct 2025 14:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.283725
- Title: MatheMagic: Generating Dynamic Mathematics Benchmarks Robust to Memorization
- Title(参考訳): MatheMagic: 動的数学ベンチマークの生成は暗記に頑丈
- Authors: Dayyán O'Brien, Barry Haddow, Emily Allaway, Pinzhen Chen,
- Abstract要約: 現在のベンチマークは、クローズドエンドの回答と合わせて、シンボルやルールの多様性が制限されているため、過度に適合する傾向にある。
本稿では,これらの欠点を,動的,非実効的ベンチマークに有用な特徴として活用する手法を提案する。
数と演算子の解釈が変更された数学テストインスタンスを生成するMatheMagicを通じてこれを実証するが、自動的に検証できる。
- 参考スコア(独自算出の注目度): 24.225957201610118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conducting contamination-free evaluation of mathematical capabilities can be difficult for two reasons: models may memorize a test set once it is made public, and current mathematical benchmarks are prone to overfitting due to having limited diversity of symbols and rules, coupled with closed-ended answers. This paper proposes a method to leverage these shortcomings as useful features to a construct dynamic, counterfactual benchmark, which can be used to both reveal overfitting and measure true reasoning. We demonstrate this via MatheMagic, which generates math test instances with the interpretations of numbers and operators altered, yet has automatically verifiable answers. Test instances are randomly seeded and constructed at test time to evaluate a model's induction or deduction capability, offering stability, extensibility, comparability, and robustness to overfitting. Our experiments find that models solve deduction more easily than induction, but they revert to standard math. Further analysis reveals that math-adapted models fail to exhibit a general "skill" of reasoning, and fine-tuning on induction tasks generalizes poorly.
- Abstract(参考訳): モデルが公開されるとテストセットを記憶し、現在の数学ベンチマークは、閉じた回答と合わせて、記号や規則の多様性に制限があるため、過度に適合する傾向にある。
本稿では,これらの欠点を,過度に適合し,真の推論を測ることの両立を図り得る,動的で反実的ベンチマークに有用な特徴として活用する手法を提案する。
数と演算子の解釈が変更された数学テストインスタンスを生成するMatheMagicを通じてこれを実証するが、自動的に検証できる。
テストインスタンスはランダムにシードされ、モデルの誘導や推論能力を評価するためにテスト時に構築され、安定性、拡張性、互換性、オーバーフィッティングに対する堅牢性を提供する。
我々の実験では、モデルは帰納法よりも推論を解くが、それらは標準的な数学に回帰する。
さらに分析したところ、数学に適応したモデルでは推論の一般的な「スキル」が得られず、帰納的タスクの微調整は一般化が不十分であることが判明した。
関連論文リスト
- Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems [9.041749463376599]
本稿では,自然言語の数学的コーパスから高品質な証明中心ベンチマークを合成するフレームワークProof2Hybridを提案する。
我々のフレームワークとベンチマークは、AIシステムの数学的インテリジェンスに関する、より深い研究の波の道を開く。
論文 参考訳(メタデータ) (2025-08-04T08:59:36Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [21.453837660747844]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。
MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。
MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文 参考訳(メタデータ) (2024-07-11T17:58:58Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。