論文の概要: MatheMagic: Generating Dynamic Mathematics Benchmarks Robust to Memorization
- arxiv url: http://arxiv.org/abs/2510.05962v1
- Date: Tue, 07 Oct 2025 14:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.283725
- Title: MatheMagic: Generating Dynamic Mathematics Benchmarks Robust to Memorization
- Title(参考訳): MatheMagic: 動的数学ベンチマークの生成は暗記に頑丈
- Authors: Dayyán O'Brien, Barry Haddow, Emily Allaway, Pinzhen Chen,
- Abstract要約: 現在のベンチマークは、クローズドエンドの回答と合わせて、シンボルやルールの多様性が制限されているため、過度に適合する傾向にある。
本稿では,これらの欠点を,動的,非実効的ベンチマークに有用な特徴として活用する手法を提案する。
数と演算子の解釈が変更された数学テストインスタンスを生成するMatheMagicを通じてこれを実証するが、自動的に検証できる。
- 参考スコア(独自算出の注目度): 24.225957201610118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conducting contamination-free evaluation of mathematical capabilities can be difficult for two reasons: models may memorize a test set once it is made public, and current mathematical benchmarks are prone to overfitting due to having limited diversity of symbols and rules, coupled with closed-ended answers. This paper proposes a method to leverage these shortcomings as useful features to a construct dynamic, counterfactual benchmark, which can be used to both reveal overfitting and measure true reasoning. We demonstrate this via MatheMagic, which generates math test instances with the interpretations of numbers and operators altered, yet has automatically verifiable answers. Test instances are randomly seeded and constructed at test time to evaluate a model's induction or deduction capability, offering stability, extensibility, comparability, and robustness to overfitting. Our experiments find that models solve deduction more easily than induction, but they revert to standard math. Further analysis reveals that math-adapted models fail to exhibit a general "skill" of reasoning, and fine-tuning on induction tasks generalizes poorly.
- Abstract(参考訳): モデルが公開されるとテストセットを記憶し、現在の数学ベンチマークは、閉じた回答と合わせて、記号や規則の多様性に制限があるため、過度に適合する傾向にある。
本稿では,これらの欠点を,過度に適合し,真の推論を測ることの両立を図り得る,動的で反実的ベンチマークに有用な特徴として活用する手法を提案する。
数と演算子の解釈が変更された数学テストインスタンスを生成するMatheMagicを通じてこれを実証するが、自動的に検証できる。
テストインスタンスはランダムにシードされ、モデルの誘導や推論能力を評価するためにテスト時に構築され、安定性、拡張性、互換性、オーバーフィッティングに対する堅牢性を提供する。
我々の実験では、モデルは帰納法よりも推論を解くが、それらは標準的な数学に回帰する。
さらに分析したところ、数学に適応したモデルでは推論の一般的な「スキル」が得られず、帰納的タスクの微調整は一般化が不十分であることが判明した。
関連論文リスト
- Pessimistic Verification for Open Ended Math Questions [6.715841196629822]
検証性能の重要な制限は、エラー検出の能力にある。
悲観的検証では、同じ証明に対して複数の並列検証を構築し、その1つが誤りを報告した場合、証明は誤りとみなされる。
この単純な手法は、かなりの計算資源を得ることなく、多くの数学検証ベンチマークで性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-11-26T15:52:52Z) - Proof2Hybrid: Automatic Mathematical Benchmark Synthesis for Proof-Centric Problems [9.041749463376599]
本稿では,自然言語の数学的コーパスから高品質な証明中心ベンチマークを合成するフレームワークProof2Hybridを提案する。
我々のフレームワークとベンチマークは、AIシステムの数学的インテリジェンスに関する、より深い研究の波の道を開く。
論文 参考訳(メタデータ) (2025-08-04T08:59:36Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [21.453837660747844]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Examining False Positives under Inference Scaling for Mathematical Reasoning [83.97128486951999]
言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。
実験結果から,(1)異なるモデル,データセット,復号化手法,(2)サンプリングベース推論時間スケーリング手法では問題を緩和できないこと,(3)pass@N評価基準の方が偽陽性の影響を受けやすいこと,などが明らかになった。
論文 参考訳(メタデータ) (2025-02-10T07:49:35Z) - Data for Mathematical Copilots: Better Ways of Presenting Proofs for Machine Learning [85.635988711588]
我々は,大規模言語モデルの能力向上には,数学的データセットの設計におけるパラダイムシフトが必要であると論じる。
1949年にG. P'olyaが導入した「動機付き証明」の概念は、より良い証明学習信号を提供するデータセットの青写真として機能する。
数学データセットに特化して設計されたアンケートでは、クリエーターにデータセットを含めるよう促します。
論文 参考訳(メタデータ) (2024-12-19T18:55:17Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。
MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。
MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文 参考訳(メタデータ) (2024-07-11T17:58:58Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。