Fugu-MT 論文翻訳(概要): GenX: Mastering Code and Test Generation with Execution Feedback

論文の概要: GenX: Mastering Code and Test Generation with Execution Feedback

arxiv url: http://arxiv.org/abs/2412.13464v1
Date: Wed, 18 Dec 2024 03:18:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.039307
Title: GenX: Mastering Code and Test Generation with Execution Feedback
Title（参考訳）: GenX: 実行フィードバックによるコードとテスト生成のマスタリング
Authors: Nan Wang, Yafei Liu, Chen Chen, Haonan Lu,
Abstract要約: 本稿では,コード生成モデルとテスト生成モデルを同時にトレーニングする新しい手法を提案する。テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。
参考スコア（独自算出の注目度）: 7.225594526057816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in language modeling have enabled the translation of natural language into code, and the use of execution feedback to improve code generation. However, these methods often rely heavily on pre-existing test cases, which may not always be available or comprehensive. In this work, we propose a novel approach that concurrently trains a code generation model and a test generation model, utilizing execution feedback to refine and enhance the performance of both. We introduce two strategies for test and code data augmentation and a new scoring function for code and test ranking. We experiment on the APPS dataset and demonstrate that our approach can effectively generate and augment test cases, filter and synthesize correct code solutions, and rank the quality of generated code and tests. The results demonstrate that our models, when iteratively trained with an increasing number of test cases and code solutions, outperform those trained on the original dataset.
Abstract（参考訳）: 近年の言語モデリングの進歩により、自然言語のコードへの翻訳や、コード生成を改善するための実行フィードバックの利用が可能になった。しかしながら、これらのメソッドは既存のテストケースに大きく依存することが多い。本研究では,コード生成モデルとテスト生成モデルとを同時に学習し,実行フィードバックを利用して両方の性能を洗練・向上する手法を提案する。テストデータとコードデータの増大のための2つの戦略と、コードとテストランキングのための新しいスコアリング機能を導入します。我々はAPPSデータセットを実験し、我々のアプローチがテストケースを効果的に生成・拡張し、正しいコードソリューションをフィルタリング・合成し、生成されたコードやテストの品質をランク付けできることを実証する。その結果、我々のモデルは、テストケースやコードソリューションの数の増加で反復的にトレーニングされた場合、元のデータセットでトレーニングされたモデルよりも優れています。

関連論文リスト

ATGen: Adversarial Reinforcement Learning for Test Case Generation [78.48498301767079]
大きな言語モデル(LLM)はコード生成に優れていますが、その出力には微妙なバグが伴います。既存のテスト生成方法は静的データセットに依存している。我々は,対戦型強化学習を通じてテストケースジェネレータを訓練するフレームワークであるATGenを紹介する。
論文参考訳（メタデータ） (2025-10-16T12:49:25Z)
CodeChemist: Functional Knowledge Transfer for Low-Resource Code Generation via Test-Time Scaling [63.08126845138046]
本稿では,高リソースから低リソースPLへの機能的知識伝達を可能にする,テスト時間スケーリングのフレームワークであるCodeChemistを紹介する。実験の結果,CodeChemistは既存のテストタイムスケーリング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-10-01T04:33:53Z)
Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文参考訳（メタデータ） (2025-08-27T03:15:53Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文参考訳（メタデータ） (2024-06-18T14:54:37Z)
Test-Driven Development for Code Generation [0.850206009406913]
大きな言語モデル(LLM)は、問題ステートメントから直接コードスニペットを生成する重要な機能を示している。本稿では,テスト駆動開発(TDD)をAI支援コード生成プロセスに組み込む方法について検討する。
論文参考訳（メタデータ） (2024-02-21T04:10:12Z)
CAT-LM: Training Language Models on Aligned Code And Tests [19.526181671936243]
テストはソフトウェア開発プロセスにおいて不可欠な部分だ。しかし、テストを書くのに時間がかかり、しばしば無視される。我々は270億のパラメータを持つGPTスタイルの言語モデルであるAligned Code And Tests Language Model (CAT-LM)を提案する。
論文参考訳（メタデータ） (2023-10-02T19:52:22Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)
Enhancing Semantic Code Search with Multimodal Contrastive Learning and Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文参考訳（メタデータ） (2022-04-07T08:49:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。