論文の概要: Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?
- arxiv url: http://arxiv.org/abs/2603.03202v2
- Date: Wed, 04 Mar 2026 04:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.992166
- Title: Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?
- Title(参考訳): Code2Math:あなたのコードエージェントは、探索を通じて数学の問題を効果的に解決できますか?
- Authors: Dadi Guo, Yuejin Xie, Qingyu Liu, Jiayu Liu, Zhiyuan Fan, Qihan Ren, Shuai Shao, Tianyi Zhou, Dongrui Liu, Yi R. Fung,
- Abstract要約: 我々は、既存の数学問題をより複雑なバリエーションに自律的に進化させるコードエージェントの可能性について検討する。
本稿では,解決可能性の検証と,発生した問題の難易度の向上を図りながら,問題進化を図ったマルチエージェントフレームワークを提案する。
この研究は、コード駆動エージェントが高微分数学的推論問題を合成するための実行可能なメカニズムとして機能できるという実証的な証拠を提供する。
- 参考スコア(独自算出の注目度): 40.0763986629474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) advance their mathematical capabilities toward the IMO level, the scarcity of challenging, high-quality problems for training and evaluation has become a significant bottleneck. Simultaneously, recent code agents have demonstrated sophisticated skills in agentic coding and reasoning, suggesting that code execution can serve as a scalable environment for mathematical experimentation. In this paper, we investigate the potential of code agents to autonomously evolve existing math problems into more complex variations. We introduce a multi-agent framework designed to perform problem evolution while validating the solvability and increased difficulty of the generated problems. Our experiments demonstrate that, given sufficient test-time exploration, code agents can synthesize new, solvable problems that are structurally distinct from and more challenging than the originals. This work provides empirical evidence that code-driven agents can serve as a viable mechanism for synthesizing high-difficulty mathematical reasoning problems within scalable computational environments. Our data is available at https://github.com/TarferSoul/Code2Math.
- Abstract(参考訳): 大規模言語モデル (LLM) が IMO レベルに向けて数学的能力を推し進めるにつれ、訓練と評価のための困難で高品質な問題の不足が重大なボトルネックとなっている。
同時に、最近のコードエージェントはエージェントコーディングと推論の高度なスキルを実証し、コード実行が数学的実験のためのスケーラブルな環境として機能することを示唆している。
本稿では,既存の数学問題をより複雑な変分へと自律的に進化させるコードエージェントの可能性について検討する。
本稿では,解決可能性の検証と,発生した問題の難易度の向上を図りながら,問題進化を図ったマルチエージェントフレームワークを提案する。
我々の実験は、十分なテスト時間探索を前提として、コードエージェントが、構造的に異なる新しい、解決可能な問題を合成し、オリジナルとより難しいことを実証した。
この研究は、コード駆動エージェントがスケーラブルな計算環境内で高微分数学的推論問題を合成するための実行可能なメカニズムとして機能する、実証的な証拠を提供する。
我々のデータはhttps://github.com/TarferSoul/Code2Math.comで入手できる。
関連論文リスト
- Even with AI, Bijection Discovery is Still Hard: The Opportunities and Challenges of OpenEvolve for Novel Bijection Construction [7.629457153784809]
AlphaEvolve、OpenEvolve、ShinkaEvolveといった進化的プログラム合成システムは、AIによる数学的発見に対する新しいアプローチを提供する。
これらのシステムは、大きな言語モデル(LLM)のチームを用いて、人間の可読性コードとして問題に対する候補解を生成する。
ダイクパスを含む3つの建設問題に対して OpenEvolve を適用した結果について述べる。
論文 参考訳(メタデータ) (2025-11-26T02:30:17Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images [69.93976232543066]
本稿では,コード駆動型Chain-of-ThoughtパラダイムであるCodePlot-CoTを提案する。
そこで我々はまず,視覚推論を用いた数学問題のための大規模バイリンガルデータセットとベンチマークであるMath-VRを構築した。
我々のモデルは,提案したコード駆動推論パラダイムの有効性を十分に検証し,ベースモデルよりも最大で21%向上する。
論文 参考訳(メタデータ) (2025-10-13T17:59:55Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - URSA: The Universal Research and Scientific Agent [0.39487937309998083]
本稿では,研究課題を加速する科学エージェントエコシステムURSAについて紹介する。
URSAは、高度な物理シミュレーションコードとの結合を含むモジュラーエージェントとツールのセットで構成されている。
この作業では、URSAのアーキテクチャと、システムの可能性を強調した例を強調します。
論文 参考訳(メタデータ) (2025-06-27T21:56:02Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - Cogito, ergo sum: A Neurobiologically-Inspired Cognition-Memory-Growth System for Code Generation [9.920563105290894]
Cogitoは、低コストでコード生成タスクの問題解決能力を高めるために、神経生物学的にインスパイアされたマルチエージェントフレームワークである。
コギトは各段階で知識と認知スキルを蓄積し、最終的にスーパーロールをコード生成タスクを実行するためのすべての有能なエージェントとして形成する。
論文 参考訳(メタデータ) (2025-01-30T01:41:44Z) - From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models [38.71041354422434]
大規模言語モデル (LLM) は、数学的推論に関わる幅広い問題を解くために学習する。
オープンウェイトLLMの数学的推論能力は,事前学習と後学習の間にどのように発達するかを示す。
論文 参考訳(メタデータ) (2024-07-01T01:56:28Z) - MechAgents: Large language model multi-agent collaborations can solve
mechanics problems, generate new data, and integrate knowledge [0.6708125191843434]
ここでは、自律的なコラボレーションを通じて、弾力性に関する問題を実証する。
2エージェントチームは、古典的な弾性問題を解くために有限要素法を適用するために、効果的にコードを書き、実行し、自己修正することができる。
より複雑なタスクのために、我々は計画、定式化、コーディング、実行、プロセスと結果を批判する作業の分割を強化したより大きなエージェントグループを構築します。
論文 参考訳(メタデータ) (2023-11-14T13:49:03Z) - Measuring Mathematical Problem Solving With the MATH Dataset [55.4376028963537]
12,500の競合数学問題のデータセットであるMATHを紹介する。
各問題には、答えの導出と説明を生成するためのモデルを教えるために使用できる完全なステップバイステップソリューションがあります。
また、モデルに数学の基礎を教えるための補助的事前学習データセットも提供します。
論文 参考訳(メタデータ) (2021-03-05T18:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。