論文の概要: ACE: Self-Evolving LLM Coding Framework via Adversarial Unit Test Generation and Preference Optimization
- arxiv url: http://arxiv.org/abs/2605.16299v2
- Date: Thu, 21 May 2026 14:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.870816
- Title: ACE: Self-Evolving LLM Coding Framework via Adversarial Unit Test Generation and Preference Optimization
- Title(参考訳): ACE: 対向単体テスト生成と優先度最適化による自己進化型LLM符号化フレームワーク
- Authors: Yixu Huang, Xinglei Yu, Zhongyu Wei,
- Abstract要約: ACEは、ソルバ・アドバイザリーアーキテクチャに基づく自己進化型コード生成フレームワークである。
実行中心の監視を通じて、アクティブな障害発見を優先する。
ACEは強いソルバよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 28.464748466548965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at code generation but remain heavily reliant on large-scale annotated solutions and verification-based supervision, which constrains scalability and hinders sustained self-improvement. Recent solver--verifier frameworks exploit program execution as an automatic supervision signal, but their effectiveness degrades as solvers become moderately strong: verifier-generated tests increasingly confirm semantic correctness rather than exposing the remaining failure modes. We propose \textbf{ACE}, a self-evolving code generation framework based on a solver--adversary architecture that prioritizes active failure discovery through execution-centric supervision. A single LLM alternates between generating candidate programs and producing adversarial unit test inputs optimized to induce execution-level failures, such as runtime errors, exceptions, or non-termination. Supervision is derived solely from execution outcomes: robust programs are selected for supervised fine-tuning, while adversarial tests are optimized via Kahneman--Tversky Optimization using execution-derived preferences. Notably, the entire training loop requires no ground-truth code or external reward models. Experiments on CodeContests, MBPP, and LiveCodeBench demonstrate that ACE consistently outperforms strong solver--verifier baselines, achieving 3--7\% absolute gains in pass@1, with larger improvements on out-of-distribution benchmarks, while maintaining competitive or improved inference efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において優れていますが、拡張性を制限し、持続的な自己改善を妨げる、大規模な注釈付きソリューションと検証ベースの監視に大きく依存しています。
近年のソルバ検証フレームワークは,プログラム実行を自動監視信号として活用しているが,その有効性は,ソルバが適度に強くなるにつれて低下する。
我々は,実行中心の監視を通じてアクティブな障害発見を優先する,ソルバ-アドバイザアーキテクチャに基づく自己進化型コード生成フレームワークである‘textbf{ACE}’を提案する。
単一のLCMは、候補プログラムの生成と、実行時のエラーや例外、非終了などの実行レベルの障害を誘発するために最適化された対向単体テストインプットの生成を交互に行う。
厳密なプログラムは教師付き微調整のために選択され、対向テストはKahneman--Tversky Optimization(英語版)によって最適化される。
特に、トレーニングループ全体は、根本的なコードや外部報酬モデルを必要としない。
CodeContests、MBPP、LiveCodeBenchの実験では、ACEは強力なソルバ検証ベースラインを一貫して上回り、pass@1で3~7倍の絶対的なゲインを達成し、アウト・オブ・ディストリビューションベンチマークを大きく改善し、競争力や推論効率の向上を維持している。
関連論文リスト
- Execution-Verified Reinforcement Learning for Optimization Modeling [49.171122807323634]
実行検証学習フレームワークは、数学的プログラミング解法を決定論的で対話的な検証器として扱う。
NL4OPT, MAMO, IndustryOR, OptiBenchをグロビ, OR-Tools, COPTで行った実験では, EVOMがプロセス管理SFTに適合または優れていた。
論文 参考訳(メタデータ) (2026-04-01T03:39:11Z) - Self-Improving Code Generation via Semantic Entropy and Behavioral Consensus [24.61607166744383]
ConSelfは2つの重要なアイデアに基づいて構築された自己改善のアプローチである。
まず,問題レベルの不確実性を測定する新しい指標であるコードセマンティックエントロピーを導入する。
第2に、コンセンサス駆動直接選好最適化(Con-DPO)を提案する。
論文 参考訳(メタデータ) (2026-03-31T05:55:17Z) - Scaling Agentic Verifier for Competitive Coding [66.11758166379092]
大規模言語モデル(LLM)は強力なコーディング能力を示しているが、1回の試行で競合するプログラミング問題を正しく解くのに苦戦している。
実行ベースの再ランク付けは、有望なテスト時間スケーリング戦略を提供するが、既存のメソッドは、難しいテストケースの生成または非効率的なランダム入力サンプリングによって制約される。
本稿では,プログラムの動作を積極的に推論し,高い差別性のあるテスト入力を検索するエージェント検証手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T06:30:40Z) - Synthesizing Performance Constraints for Evaluating and Improving Code Efficiency [4.292737608159482]
We present WEDGE, a framework for performance-stressing input given the program under test。
WEDGEは、プログラムの実行空間をパフォーマンス固有の領域に分割するために、分岐条件の形で明示的なパフォーマンス特性制約を合成する。
評価の結果、WEDGEは、CodeContestsのテストや既存のアプローチによって最適化されていると主張されたテストと比較して、大幅にスローダウンしていることがわかった。
論文 参考訳(メタデータ) (2025-05-29T14:26:22Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。
CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文 参考訳(メタデータ) (2024-10-08T01:36:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。