論文の概要: Autonomous Code Evolution Meets NP-Completeness
- arxiv url: http://arxiv.org/abs/2509.07367v1
- Date: Tue, 09 Sep 2025 03:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.175284
- Title: Autonomous Code Evolution Meets NP-Completeness
- Title(参考訳): NP完全性を備えた自律的コード進化
- Authors: Cunxi Yu, Rongjian Liang, Chia-Tung Ho, Haoxing Ren,
- Abstract要約: SATLUTIONはLLMベースのコード進化を完全なリポジトリスケールに拡張した最初のフレームワークである。
厳格な正当性保証と分散フィードバックの下でソルバリポジトリを編成し、同時に独自の進化ポリシーとルールを自己進化させる。
SATコンペティション2024とベンチマークを皮切りにSATLUTIONは、SATコンペティション2025の人間設計の勝者を決定的に上回った。
- 参考スコア(独自算出の注目度): 9.651781465892748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown strong coding abilities, enabling not only static code generation but also iterative code self-evolving through agentic frameworks. Recently, AlphaEvolve \cite{novikov2025alphaevolve} demonstrated that LLM-based coding agents can autonomously improve algorithms and surpass human experts, with scopes limited to isolated kernels spanning hundreds of lines of code. Inspired by AlphaEvolve, we present SATLUTION, the first framework to extend LLM-based code evolution to the full repository scale, encompassing hundreds of files and tens of thousands of lines of C/C++ code. Targeting Boolean Satisfiability (SAT), the canonical NP-complete problem and a cornerstone of both theory and applications. SATLUTION orchestrates LLM agents to directly evolve solver repositories under strict correctness guarantees and distributed runtime feedback, while simultaneously self-evolving its own evolution policies and rules. Starting from SAT Competition 2024 codebases and benchmark, SATLUTION evolved solvers that decisively outperformed the human-designed winners of the SAT Competition 2025, and also surpassed both 2024 and 2025 champions on the 2024 benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、強力なコーディング能力を示し、静的コード生成だけでなく、エージェントフレームワークによる反復的なコード自己進化を可能にする。
最近、AlphaEvolve \cite{novikov2025alphaevolve} は、LLMベースのコーディングエージェントがアルゴリズムを自律的に改善し、数百行のコードにまたがる独立したカーネルに限定される、人間の専門家を超えることができることを示した。
AlphaEvolveにインスパイアされたSATLUTIONは、LLMベースのコード進化をフルリポジトリスケールに拡張する最初のフレームワークであり、数百のファイルと数万行のC/C++コードを含んでいる。
正準NP完全問題であるブール満足度(SAT)を目標とし、理論と応用の両方の基礎となる。
SATLUTIONはLSMエージェントを編成し、厳格な正当性保証と分散ランタイムフィードバックの下で解決リポジトリを直接進化させ、同時に独自の進化ポリシーとルールを自己進化させる。
SATコンペティション2024のコードベースとベンチマークから始まったSATLUTIONは、SATコンペティション2025の人間設計の勝者を決定的に上回り、2024のベンチマークでは2024と2025のチャンピオンを上回った。
関連論文リスト
- AlphaEvolve: A coding agent for scientific and algorithmic discovery [63.13852052551106]
我々は,最先端LLMの能力を大幅に向上させる進化的符号化エージェントAlphaEvolveを提案する。
AlphaEvolveはLLMの自律パイプラインを編成し、そのタスクはコードを直接変更することでアルゴリズムを改善することである。
本稿では,多くの重要な計算問題に適用することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2025-06-16T06:37:18Z) - Humanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition? [39.99519977079694]
Humanity's Last Code Exam (HLCE) は、ICPC World Finals (International Collegiate Programming Contest) と International Olympiad in Informatics (IOI) の235の最も難しい問題で構成されている。
HLCEの一部として、完全に再現可能な評価を保証する、調和したオンラインオフラインサンドボックスを設計する。
最強の理由である o4-mini(high) と Gemini-2.5 Pro でさえ,それぞれ 15.9% と 11.4% のパス@1 レートを達成した。
論文 参考訳(メタデータ) (2025-06-15T04:03:31Z) - code_transformed: The Influence of Large Language Models on Code [5.365515830102181]
本稿では,大規模言語モデルがコードスタイルに与える影響を調査する先駆的な研究について述べる。
2020年から2025年の間に発行されたarXivの論文にリンクされた19,000以上のGitHubリポジトリからコードを分析します。
実験の結果,LLMが実世界のプログラミングスタイルに影響を及ぼすという,最初の大規模な実証的証拠が得られた。
論文 参考訳(メタデータ) (2025-06-13T17:59:39Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [1.335664823620186]
大規模言語モデル(LLM)は最近、ソフトウェア工学のタスクに多くの応用を進歩させた。
CoT-SelfEvolveは、自己修正プロセスを通じて、反復的かつ自動的にコードを洗練する。
論文 参考訳(メタデータ) (2024-08-28T09:19:09Z) - LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code [34.03774442237902]
コード関連アプリケーションに適用される大規模言語モデルは、顕著な分野として現れている。
既存の評価ベンチマーク(HumanEval、MBPPなど)は、もはやその能力を評価するには不十分である。
コードに対するLLMの包括的で汚染のない評価手法であるLiveCodeBenchを提案する。
論文 参考訳(メタデータ) (2024-03-12T17:58:04Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。