論文の概要: Putnam-AXIOM: A Functional and Static Benchmark
- arxiv url: http://arxiv.org/abs/2508.08292v1
- Date: Tue, 05 Aug 2025 17:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.144986
- Title: Putnam-AXIOM: A Functional and Static Benchmark
- Title(参考訳): Putnam-AXIOM: 機能的で静的なベンチマーク
- Authors: Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo,
- Abstract要約: 大規模言語モデル(LLM)の現在のベンチマークは飽和状態に近づき、トレーニングセットの汚染によってますます損なわれている。
我々は、有名なウィリアム・ローウェル・パットナム数学コンペティションのベンチマークであるPatnam-AXIOMを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
- 参考スコア(独自算出の注目度): 10.312374393170277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current mathematical reasoning benchmarks for large language models (LLMs) are approaching saturation, with some achieving > 90% accuracy, and are increasingly compromised by training-set contamination. We introduce Putnam-AXIOM, a benchmark of 522 university-level competition problems drawn from the prestigious William Lowell Putnam Mathematical Competition, and Putnam-AXIOM Variation, an unseen companion set of 100 functional variants generated by programmatically perturbing variables and constants. The variation protocol produces an unlimited stream of equally difficult, unseen instances -- yielding a contamination-resilient test bed. On the Original set, OpenAI's o1-preview -- the strongest evaluated model -- scores 41.9%, but its accuracy drops by 19.6% (46.8% relative decrease) on the paired Variations. The remaining eighteen models show the same downward trend, ten of them with non-overlapping 95% confidence intervals. These gaps suggest memorization and highlight the necessity of dynamic benchmarks. We complement "boxed" accuracy with Teacher-Forced Accuracy (TFA), a lightweight metric that directly scores reasoning traces and automates natural language proof evaluations. Putnam-AXIOM therefore provides a rigorous, contamination-resilient evaluation framework for assessing advanced mathematical reasoning of LLMs. Data and evaluation code are publicly available at https://github.com/brando90/putnam-axiom.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の数学的推論ベンチマークは飽和度に近づき、90%以上の精度を達成している。
本稿では、ウィリアム・ローウェル・パットナム数学コンペティション(William Lowell Putnam Mathematical Competition)から引き出された522の大学レベルの競合問題のベンチマークであるPutnam-AXIOMと、変数と定数をプログラム的に摂動させることによって生成される100の関数変種からなる見知らぬ伴奏集合であるPutnam-AXIOM Variationを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
オリジナルセットでは、OpenAIのo1-preview(最強評価モデル)は41.9%と評価されたが、その精度はペアの変動に対して19.6%低下(相対減少率46.8%)した。
残りの18モデルも同様に下降傾向を示し、そのうち10モデルは95%の信頼区間を重複しない。
これらのギャップはメモリ化を示唆し、動的ベンチマークの必要性を強調している。
我々は、推論トレースを直接スコアし、自然言語による証明評価を自動化する軽量な指標であるTFA(Teacher-Forced Accuracy)と「ボックス化」の精度を補完する。
そのためPatnam-AXIOMは、LSMの高度な数学的推論を評価するための厳密で汚染耐性のある評価フレームワークを提供する。
データと評価コードはhttps://github.com/brando90/putnam-axiom.comで公開されている。
関連論文リスト
- VAR-MATH: Probing True Mathematical Reasoning in Large Language Models via Symbolic Multi-Instance Benchmarks [25.295071827427677]
Emphbenchmarkの汚染は テスト問題の公開によって発生します
評価の脆弱さは、単一インスタンスの評価に依存することに起因する。
IME-MATHは、真の推論能力を調査するために設計されたシンボリック評価フレームワークである。
論文 参考訳(メタデータ) (2025-07-17T08:10:55Z) - Solving Inequality Proofs with Large Language Models [46.71658812761115]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - LookAlike: Consistent Distractor Generation in Math MCQs [42.19039301965107]
そこで我々はLookAlikeを提案する。LookAlikeは優先最適化によるエラー・ディトラクタの整合性を改善する手法である。
主なイノベーションは、(a)モデル不整合から合成選好ペアをマイニングすること、(b)教師付き微調整の交互化である。
LookAlike は LLM-as-a-judge 評価の下で、イントラクタ生成の精度51.6%、エラー生成の精度57.2% を達成する。
論文 参考訳(メタデータ) (2025-05-03T19:18:06Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。