論文の概要: What Do Evolutionary Coding Agents Evolve?
- arxiv url: http://arxiv.org/abs/2605.20086v1
- Date: Tue, 19 May 2026 16:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.531526
- Title: What Do Evolutionary Coding Agents Evolve?
- Title(参考訳): 進化的コーディングエージェントは何を進化させるのか?
- Authors: Nico Pelleriti, Sree Harsha Nelaturu, Zhanke Zhou, Zongze Li, Max Zimmer, Bo Han, Sebastian Pokutta,
- Abstract要約: EvoTraceは4つの進化的フレームワーク、推論と非推論モデル、数学とアルゴリズム設計にまたがる16のタスクからなる進化的コーディングトレースのデータセットである。
本研究では,これらのトレースを,ハイスコアソリューションの裏側にある局所的な検索状態を再構成するリプレイベースの手法であるEvoReplayを用いて解析する。
EvoTrace全体では、ほとんどのスコアはこれらの編集タイプの小さなサブセットから得ている。
- 参考スコア(独自算出の注目度): 46.561777689365165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work pairs LLMs with evolutionary search to iteratively generate, modify, and select code using task-specific feedback. These systems have produced strong results in mathematical discovery and algorithm design, yet a fundamental question remains: what do they actually evolve? Progress is typically summarized by the best score a run reaches under a task-specific evaluator, but that score can reflect several different mechanisms: new algorithmic structure, re-tuning an existing strategy, recombining ideas already in the model's internal knowledge, or overfitting to the evaluator. Distinguishing these mechanisms requires inspecting the search process itself, not only its final outcome. We introduce EvoTrace, a dataset of evolutionary coding traces spanning four evolutionary frameworks, reasoning and non-reasoning models, and 16 tasks across mathematics and algorithm design. To analyze these traces, we develop EvoReplay, a replay-based methodology that reconstructs the local search states behind high-scoring solutions and tests controlled interventions, including adjusting constants, removing program components and substituting models or prompting contexts. We annotate every code edit in EvoTrace with one of nine recurring edit types using an LLM-as-judge pipeline validated against blind human re-annotation. Across EvoTrace, most score gains come from a small subset of these edit types. We further find a deterministic cycling pattern: about 30% of code lines added during search are byte-identical re-introductions of previously-deleted lines, present throughout nearly every run. These results show that benchmark gains in evolutionary coding agents can arise from qualitatively different mechanisms, only some of which correspond to new algorithmic structure. EvoTrace enables more diagnostic evaluation of evolutionary coding agents beyond final benchmark scores.
- Abstract(参考訳): 最近のワークペアは、進化的検索と組み合わせて、タスク固有のフィードバックを使用して反復的にコードを生成し、修正し、選択する。
これらのシステムは、数学的発見とアルゴリズム設計において強力な結果をもたらしてきたが、根本的な疑問が残る。
プログレスは通常、ランがタスク固有の評価者の下で到達する最良のスコアによって要約されるが、そのスコアは、新しいアルゴリズム構造、既存の戦略の調整、モデルの内部知識にすでに存在するアイデアの再結合、評価者への過度な適合など、いくつかの異なるメカニズムを反映することができる。
これらのメカニズムを廃止するには、最終的な結果だけでなく、検索プロセス自体を検査する必要がある。
EvoTraceは4つの進化的フレームワーク、推論と非推論モデル、数学とアルゴリズム設計にまたがる16のタスクからなる進化的コーディングトレースのデータセットである。
これらのトレースを解析するために,リプレイベースの手法であるEvoReplayを開発した。これはハイスコアなソリューションの裏にあるローカル検索状態を再構築し,定数の調整やプログラムコンポーネントの削除,モデルの置換,コンテキストのプロンプトといった操作を制御する。
私たちはEvoTraceのすべてのコード編集に、盲目の人間の再アノテーションに対して検証されたLSM-as-judgeパイプラインを使用して、9つの繰り返し編集タイプのうちの1つを注釈付けします。
EvoTrace全体では、ほとんどのスコアはこれらの編集タイプの小さなサブセットから得ている。
検索中に追加されたコード行の約30%は、削除された行のバイト単位の再導入であり、ほぼすべての実行中に存在する。
これらの結果から、進化的符号化エージェントのベンチマークゲインは、定性的に異なるメカニズムから生じることが示され、その一部は新しいアルゴリズム構造に対応するものである。
EvoTraceは、最終ベンチマークスコア以上の進化的コーディングエージェントの診断的評価を可能にする。
関連論文リスト
- EvoForest: A Novel Machine-Learning Paradigm via Open-Ended Evolution of Computational Graphs [2.7010154811483162]
本稿では,計算のエンドツーエンドな進化のためのハイブリッド型ニューロシンボリックシステムであるEvoForestを紹介する。
単に機能を生成するのではなく、EvoForestは再利用可能な計算構造、呼び出し可能な関数ファミリー、トレーニング可能な低次元連続コンポーネントを共同で進化させる。
各グラフ構成について、EvoForestは発見された計算を評価し、軽量のリッジベースの読み出しを使用して結果の表現をスコアする。
論文 参考訳(メタデータ) (2026-03-26T00:07:45Z) - EvoX: Meta-Evolution for Automated Discovery [115.89434419482797]
EvoXは、独自の進化過程を最適化する適応進化法である。
進捗に応じて、事前のソリューションが選択され、どのように変化するかを継続的に更新する。
AlphaEvolve, OpenEvolve, GEPA, ShinkaEvolveなどの既存のAI駆動の進化的手法を、タスクの大部分で上回っている。
論文 参考訳(メタデータ) (2026-02-26T18:54:41Z) - Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback [21.326241484461587]
Self-EvolveRecは、方向性フィードバックループを確立する新しいフレームワークである。
推奨性能とユーザ満足度の両方において、最先端のNASとLLM駆動のコード進化ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-02-13T04:38:32Z) - DeltaEvolve: Accelerating Scientific Discovery through Momentum-Driven Evolution [28.737322041874293]
LLM駆動の進化系は、自動科学発見の可能性を証明している。
AlphaEvolveのような既存のアプローチは、文脈非効率なフルコード履歴に依存している。
本稿では,完全なコード履歴を構造化セマンティックデルタに置き換える運動量駆動型進化的フレームワークDeltaEvolveを提案する。
論文 参考訳(メタデータ) (2026-02-02T23:47:54Z) - GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms [7.228213026504935]
GigaEvoはオープンソースのフレームワークで、研究者はLLM-進化のハイブリッドアプローチを研究、実験することができる。
今後の研究を支援するために,システムアーキテクチャ,実装決定,実験方法論の詳細な説明を行う。
論文 参考訳(メタデータ) (2025-11-17T14:44:47Z) - Taming Imperfect Process Verifiers: A Sampling Perspective on Backtracking [54.43083499412643]
言語モデルの生成能力をプロセス検証器と組み合わせたテストタイムアルゴリズムは、新しい推論能力を引き出すための有望なレバーを提供する。
提案手法は, 理論的に根拠付きバックトラックを用いて, 検証誤差に対して, 確実な堅牢性を実現するための新しいプロセス誘導型テスト時間サンプリングアルゴリズムであるVGBを導入する。
論文 参考訳(メタデータ) (2025-10-03T16:21:14Z) - Phylogeny-informed fitness estimation [58.720142291102135]
本研究では, 住民の健康評価を推定するために, フィロジェニーを利用した適合度推定手法を提案する。
以上の結果から, 植物性インフォームドフィットネス推定は, ダウンサンプドレキシケースの欠点を軽減することが示唆された。
この研究は、ランタイム系統解析を利用して進化アルゴリズムを改善するための最初のステップとなる。
論文 参考訳(メタデータ) (2023-06-06T19:05:01Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。