Fugu-MT 論文翻訳(概要): CoCoEvo: Co-Evolution of Programs and Test Cases to Enhance Code Generation

論文の概要: CoCoEvo: Co-Evolution of Programs and Test Cases to Enhance Code Generation

arxiv url: http://arxiv.org/abs/2502.10802v1
Date: Sat, 15 Feb 2025 13:52:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.676723
Title: CoCoEvo: Co-Evolution of Programs and Test Cases to Enhance Code Generation
Title（参考訳）: CoCoEvo: コード生成を促進するためのプログラムとテストケースの共進化
Authors: Kefan Li, Hongyue Yu, Tingyu Guo, Shijie Cao, Yuan Yuan,
Abstract要約: CoCoEvoは、プログラムとテストケースを同時に進化させる新しいフレームワークである。我々は、CoCoEvoが既存のメソッドを超越し、コードの自動生成とテストにおける最先端のパフォーマンスを実現していることを示す。
参考スコア（独自算出の注目度）: 3.113758966879047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown remarkable performance in automated code generation. However, existing approaches often rely heavily on pre-defined test cases, which become impractical in scenarios where such cases are unavailable. While prior works explore filtering techniques between programs and test cases, they overlook the refinement of test cases. To address this limitation, we introduce CoCoEvo, a novel LLM-based co-evolution framework that simultaneously evolves programs and test cases. CoCoEvo eliminates the dependency on pre-defined test cases by generating both programs and test cases directly from natural language problem descriptions and function headers. The framework employs specialized evolutionary operators, including LLM-based crossover and mutation operators for program evolution, along with a test case generation operator for test case evolution. Additionally, we propose optimization strategies such as a crossover rate scheduler to balance exploration and convergence, and a multi-objective optimization method for test case selection. Experimental results on multiple state-of-the-art LLMs demonstrate that CoCoEvo surpasses existing methods, achieving state-of-the-art performance in automated code generation and testing. These results underscore the potential of co-evolutionary techniques in advancing the field of automated programming.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自動コード生成において顕著なパフォーマンスを示している。しかし、既存のアプローチは、しばしば事前定義されたテストケースに大きく依存する。以前の研究では、プログラムとテストケース間のフィルタリング技術について検討していたが、彼らはテストケースの洗練を見落としている。この制限に対処するために,プログラムとテストケースを同時に進化させる新しいLCMベースの共進化フレームワークであるCoCoEvoを紹介する。 CoCoEvoは、プログラムとテストケースの両方を自然言語の問題記述と関数ヘッダから直接生成することで、事前に定義されたテストケースへの依存性を排除している。このフレームワークは、プログラム進化のためのLSMベースのクロスオーバーと突然変異演算子を含む特殊な進化演算子と、テストケース進化のためのテストケース生成演算子を使用している。さらに,探索と収束のバランスをとるクロスオーバーレートスケジューラや,テストケース選択のための多目的最適化手法を提案する。複数の最先端LCMの実験結果は、CoCoEvoが既存のメソッドを超越し、自動コード生成とテストで最先端のパフォーマンスを達成することを示した。これらの結果は、自動プログラミングの分野を推し進める上で、共進化的手法の可能性を浮き彫りにしている。

関連論文リスト

Seed&Steer: Guiding Large Language Models with Compilable Prefix and Branch Signals for Unit Test Generation [20.083515771706473]
単体テストはソフトウェア開発ライフサイクルにおいて重要な役割を果たす。大規模言語モデル(LLM)に基づくアプローチの最近の進歩は、自動テスト生成を大幅に改善した。従来のユニットテスト手法と大規模言語モデルの能力を組み合わせた2段階のアプローチであるSeed&Steerを提案する。
論文参考訳（メタデータ） (2025-07-23T07:16:46Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
LLM Test Generation via Iterative Hybrid Program Analysis [7.121002367542988]
Pantaは、コードを分析し、テストケースを構築する際に、人間が従う反復的なプロセスをエミュレートするテクニックである。オープンソースプロジェクトのサイクロマティックな複雑性の高いクラスで実施した経験的評価は,Pantaが26%,ブランチカバレッジが23%向上したことを示す。
論文参考訳（メタデータ） (2025-03-17T16:10:38Z)
GenX: Mastering Code and Test Generation with Execution Feedback [7.225594526057816]
本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
論文参考訳（メタデータ） (2024-12-18T03:18:21Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文参考訳（メタデータ） (2024-05-25T08:23:05Z)
Enhancing LLM-based Test Generation for Hard-to-Cover Branches via Program Analysis [8.31978033489419]
難解な分岐に到達可能なテストを生成する新しい技術である TELPA を提案する。 27のオープンソースPythonプロジェクトに対する実験結果から,TELPAは最先端のSBSTやLLMベースの技術よりも優れていたことが判明した。
論文参考訳（メタデータ） (2024-04-07T14:08:28Z)
ParaICL: Towards Robust Parallel In-Context Learning [74.38022919598443]
大規模言語モデル(LLM)が自然言語処理の標準となっている。インコンテキスト・ラーニング(ICL)は、いくつかの実演例の選択に依存している。パラレルインコンテキスト学習(ParaICL)という新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-31T05:56:15Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Test Case Recommendations with Distributed Representation of Code Syntactic Features [2.225268436173329]
本稿では,ソースコード手法とテストケースの構造的・意味的特性を利用する自動手法を提案する。提案するアプローチは、当初、メソッドレベルのソースコードとユニットテストを分散表現に変換するためにニューラルネットワークをトレーニングする。このモデルは、メソッドの埋め込みと以前に組み込まれたトレーニングインスタンスのコサイン類似性を計算します。
論文参考訳（メタデータ） (2023-10-04T21:42:01Z)
CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation [6.139760107605468]
チェーン・オブ・シント(CoT)は、複雑な推論タスクにおいて特に有効であるとして、NLPの画期的なツールとして登場した。コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。
論文参考訳（メタデータ） (2023-08-17T04:58:51Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。