Fugu-MT 論文翻訳(概要): EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing

論文の概要: EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing

arxiv url: http://arxiv.org/abs/2508.13003v1
Date: Mon, 18 Aug 2025 15:24:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:11.44605
Title: EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing
Title（参考訳）: EvolMathEval: 進化的テストによる数学的推論のための進化可能なベンチマークを目指して
Authors: Shengbo Wang, Mingwei Liu, Zike Li, Anji Li, Yanlin Wang, Xin Peng, Zibin Zheng,
Abstract要約: 本稿では,進化テストに基づく自動ベンチマーク生成および進化フレームワークであるEvolMathEvalを紹介する。ユニークな評価インスタンスab initioを動的に生成することにより、このフレームワークはデータ汚染のリスクを根本的に排除する。 EvolMathEvalは、連続的な自己イテレーションを通じて大量の高次問題を生成するだけでなく、公開データセットの複雑さを大幅に高めることもできる。
参考スコア（独自算出の注目度）: 26.594095530084996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of LLMs poses a significant challenge to existing mathematical reasoning benchmarks. These benchmarks commonly suffer from issues such as score saturation, temporal decay, and data contamination. To address this challenge, this paper introduces EvolMathEval, an automated mathematical benchmark generation and evolution framework based on evolutionary testing. By dynamically generating unique evaluation instances ab initio, the framework fundamentally eliminates the risk of data contamination, and ensuring the benchmark remains perpetually challenging for future models.The core mechanisms of EvolMathEval include: seed problem generation based on reverse engineering with algebraic guarantees; multi-dimensional genetic operators designed to inject diverse cognitive challenges; and a composite fitness function that can rapidly and accurately assess problem difficulty. Experimental results demonstrate that the proposed composite fitness function can efficiently and precisely quantify the difficulty of mathematical problems. Furthermore, EvolMathEval can not only generate a large volume of high-difficulty problems through continuous self-iteration, but it can also significantly enhance the complexity of public datasets like GSM8K through evolution, reducing model accuracy by an average of 48%. Deeper investigation reveals that when solving these evolved, complex problems, LLMs tend to employ non-rigorous heuristics to bypass complex multi-step logical reasoning, consequently leading to incorrect solutions. We define this phenomenon as "Pseudo Aha Moment". This finding uncovers a cognitive shortcut-taking behavior in the deep reasoning processes of current LLMs, which we find accounts for 77% to 100% of errors on targeted problems. Code and resources are available at:https://github.com/SYSUSELab/EvolMathEval.
Abstract（参考訳）: LLMの急速な進歩は、既存の数学的推論ベンチマークに重大な課題をもたらす。これらのベンチマークは通常、スコア飽和、時間減衰、データ汚染といった問題に悩まされる。この課題に対処するために、進化テストに基づく自動数学ベンチマーク生成および進化フレームワークであるEvolMathEvalを紹介した。 EvolMathEvalのコアメカニズムは、代数的保証付きリバースエンジニアリングに基づくシード問題生成、多様な認知課題を注入するために設計された多次元遺伝演算子、および問題を迅速かつ正確に評価できる複合フィットネス機能である。実験により, 提案した複合フィットネス関数は, 数学的問題の難しさを効率的に, 正確に定量化できることを示した。さらに、EvolMathEvalは連続的な自己イテレーションによって大量の高次問題を生成するだけでなく、進化を通じてGSM8Kのような公開データセットの複雑さを著しく高め、平均48%の精度でモデルの精度を低下させることができる。より深い調査は、これらの進化した複雑な問題を解く際に、LLMは複雑な多段階論理的推論をバイパスするために非厳密なヒューリスティックを使う傾向にあり、結果として誤った解をもたらすことを明らかにしている。この現象をPseudo Aha Momentと定義する。この発見は、現在のLLMの深い推論過程における認知的ショートカットの行動を明らかにする。コードとリソースは、https://github.com/SYSUSELab/EvolMathEval.comで入手できる。

関連論文リスト

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文参考訳（メタデータ） (2025-06-23T17:51:40Z)
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文参考訳（メタデータ） (2025-04-29T04:42:02Z)
SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability [0.14061979259370275]
アルゴリズムの確率を基礎としたオープンエンドテストを導入する。これはフロンティアモデルの定量的評価においてベンチマーク汚染を避けることができる。圧縮はシステムの予測力と等価であり、直接的に比例することを示す。
論文参考訳（メタデータ） (2025-03-20T23:11:30Z)
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T04:36:35Z)
PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-04T06:32:30Z)
Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-08T04:39:51Z)
An Evolutionary Large Language Model for Hallucination Mitigation [0.0]
本稿では,幻覚を最小化しながら高品質な質問応答データセットを生成するEvoLLMを提案する。 EvoLLMsは、Depth、Relevance、Coverageといった主要なメトリクスで、人間の生成データセットを一貫して上回る。これらの結果は、EvoLLMをQAデータセット生成の堅牢で効率的なソリューションとして強調し、手作業によるキュレーションに必要な時間とリソースを大幅に削減した。
論文参考訳（メタデータ） (2024-12-03T19:40:13Z)
ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。 ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。 2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。 GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文参考訳（メタデータ） (2024-10-06T14:59:09Z)
Generalization of Neural Combinatorial Solvers Through the Lens of Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文参考訳（メタデータ） (2021-10-21T07:28:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。