論文の概要: EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing
- arxiv url: http://arxiv.org/abs/2508.13003v2
- Date: Sun, 05 Oct 2025 08:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.523099
- Title: EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing
- Title(参考訳): EvolMathEval: 進化的テストによる数学的推論のための進化可能なベンチマークを目指して
- Authors: Shengbo Wang, Mingwei Liu, Zike Li, Anji Li, Yanlin Wang, Xin Peng, Zibin Zheng,
- Abstract要約: EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。
連続的な自己イテレーションによって大量の高次問題を生成することができる。
また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
- 参考スコア(独自算出の注目度): 45.89558878854675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) poses a significant challenge to existing mathematical reasoning benchmarks. However, these benchmarks tend to become easier over time as LLMs can learn from the published benchmarks. This limitation hinder the precise evaluation of the true capabilities of SOTA models. To address this challenge, this paper introduces EvolMathEval, an automated mathematical benchmark generation and evolution framework based on evolutionary testing. Experimental results demonstrate that EvolMathEval can not only generate a large volume of high-difficulty problems through continuous self-iteration, but it can also significantly enhance the complexity of public datasets like GSM8K through evolution, reducing model accuracy by an average of 48\%. Deeper investigation reveals that when solving these evolved problems, LLMs tend to bypass complex multi-step logical reasoning by relying on simplistic and fuzzy conditions, consequently leading to incorrect solutions. We define this phenomenon as the ``Pseudo Aha Moment", which we find accounts for 77\% to 100\% of errors on targeted problems. Code and resources are available at: https://anonymous.4open.science/r/EvolMathEval
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、既存の数学的推論ベンチマークに重大な課題をもたらす。
しかしながら、これらのベンチマークは、LLMが公開されたベンチマークから学ぶことができるため、時間が経つにつれてより簡単になる傾向にある。
この制限はSOTAモデルの真の能力の正確な評価を妨げる。
この課題に対処するために、進化テストに基づく自動数学ベンチマーク生成および進化フレームワークであるEvolMathEvalを紹介した。
実験結果から,EvolMathEvalは連続的な自己イテレーションによって大量の高次問題を生成するだけでなく,GSM8Kのような公開データセットの複雑さを増大させ,モデル精度を平均48\%削減できることが示された。
より深い調査は、これらの進化した問題を解く際に、LLMは単純かつファジィな条件に頼って複雑な多段階論理的推論を回避し、結果として誤った解をもたらす傾向があることを明らかにしている。
この現象を ‘Pseudo Aha Moment’ と定義し,対象問題に対する 77 % から 100 % の誤差について検討した。
コードとリソースは:https://anonymous.4open.science/r/EvolMathEval
関連論文リスト
- OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability [0.14061979259370275]
アルゴリズムの確率を基礎としたオープンエンドテストを導入する。
これはフロンティアモデルの定量的評価においてベンチマーク汚染を避けることができる。
圧縮はシステムの予測力と等価であり、直接的に比例することを示す。
論文 参考訳(メタデータ) (2025-03-20T23:11:30Z) - MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。
メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。
我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T04:36:35Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - An Evolutionary Large Language Model for Hallucination Mitigation [0.0]
本稿では,幻覚を最小化しながら高品質な質問応答データセットを生成するEvoLLMを提案する。
EvoLLMsは、Depth、Relevance、Coverageといった主要なメトリクスで、人間の生成データセットを一貫して上回る。
これらの結果は、EvoLLMをQAデータセット生成の堅牢で効率的なソリューションとして強調し、手作業によるキュレーションに必要な時間とリソースを大幅に削減した。
論文 参考訳(メタデータ) (2024-12-03T19:40:13Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。