論文の概要: An Iterative Test-and-Repair Framework for Competitive Code Generation
- arxiv url: http://arxiv.org/abs/2604.05560v1
- Date: Tue, 07 Apr 2026 08:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.708188
- Title: An Iterative Test-and-Repair Framework for Competitive Code Generation
- Title(参考訳): 競合コード生成のための反復的テスト・アンド・リペアフレームワーク
- Authors: Lingxiao Tang, Muyang Ye, Zhaoyang Chu, Xiaoxue Ren, Zhongxin Liu, Lingfeng Bao, He Ye,
- Abstract要約: 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げているが、競争力のあるプログラミングは依然として課題である。
近年,強化学習(RL)と実行フィードバックによるコード生成が改良されている。
より最近のフレームワークCUREでは、テスト生成をトレーニングプロセスに組み込んで、CoderとTesterを1つのモデルで共同でトレーニングしている。
- 参考スコア(独自算出の注目度): 9.137158235106943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have made remarkable progress in code generation, but competitive programming remains a challenge. Recent training-based methods have improved code generation by using reinforcement learning (RL) with execution feedback. The more recent framework CURE further incorporates test generation into the training process, jointly training a Coder and a Tester within a single model. At inference time, the Coder generates many candidate programs, and the Tester generates tests from the problem description. The candidate who passes the most of the generated tests is selected as the final answer. However, CURE has two critical limitations. First, the Tester never reads any candidate code, so its tests often fail to expose implementation-specific bugs. Second, the Coder generates every candidate from scratch and never learns to fix a buggy program based on a failed test. To address these limitations, we propose FixAudit, which approaches competitive code generation from a new perspective: starting from a single initial candidate, it iteratively improves the candidate through a targeted test-and-repair debugging cycle. The framework trains one shared model with two specialized roles through four stages: the Fixer, which repairs the current candidate based on a failing test, and the Auditor, which reads the candidate code to generate new tests that expose its remaining bugs. We evaluate FixAudit on three benchmarks: APPS, CodeContests, and xCodeEval. Applied to a 7B model, the framework surpasses the average performance of the larger 32B baseline within the same model family under the zero-shot setting. Compared to strong baselines built on the same 7B base model, FixAudit improves average Pass@1 by 35.1% to 36.8% and average AvgPassRatio by 7.1% to 24.5%.
- Abstract(参考訳): 大規模言語モデル(LLM)はコード生成において顕著な進歩を遂げているが、競争力のあるプログラミングは依然として課題である。
近年,強化学習(RL)と実行フィードバックによるコード生成が改良されている。
より最近のフレームワークCUREでは、テスト生成をトレーニングプロセスに組み込んで、CoderとTesterを1つのモデルで共同でトレーニングしている。
推論時に、Coderは多くの候補プログラムを生成し、テスタは問題記述からテストを生成する。
生成したテストの大部分をパスした候補が最終回答として選択される。
しかし、CUREには2つの限界がある。
まず、テスターは決して候補コードを読み込まないので、そのテストは実装固有のバグを公開するのに失敗することが多い。
第二に、Coderはスクラッチからすべての候補を生成し、失敗したテストに基づいてバグのあるプログラムを修正することを決して学ばない。
これらの制限に対処するために、新しい視点から競合コード生成にアプローチするFixAuditを提案する。
フレームワークは、失敗するテストに基づいて現在の候補を修復するFixerと、残りのバグを公開する新しいテストを生成するために候補コードを読み取るAuditorの4つのステージを通じて、1つの特別なロールを持つ共有モデルをトレーニングする。
我々は、APPS、CodeContests、xCodeEvalの3つのベンチマークでFixAuditを評価した。
7Bモデルに適用すると、このフレームワークはゼロショット設定の下で同じモデルファミリー内のより大きな32Bベースラインの平均性能を上回る。
同じ7Bベースモデルで構築された強いベースラインと比較して、FixAuditは平均パス@1を35.1%から36.8%、平均AvgPassRatioを7.1%から24.5%改善している。
関連論文リスト
- AutoCode: LLMs as Problem Setters for Competitive Programming [94.71566758494787]
競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。
ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
論文 参考訳(メタデータ) (2025-09-29T17:59:03Z) - Alignment with Fill-In-the-Middle for Enhancing Code Generation [56.791415642365415]
コードスニペットを小さな粒度のブロックに分割し,同じテストケースからより多様なDPOペアを生成する手法を提案する。
提案手法は,HumanEval (+), MBPP (+), APPS, LiveCodeBench, BigCodeBenchといったベンチマークデータセットの実験によって検証された,コード生成タスクの大幅な改善を示す。
論文 参考訳(メタデータ) (2025-08-27T03:15:53Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。
AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。
結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-01-29T07:45:41Z) - ConAIR:Consistency-Augmented Iterative Interaction Framework to Enhance the Reliability of Code Generation [17.68163468068264]
コード生成, ConAIR の信頼性を高めるために, 一貫性を付加した反復的相互作用フレームワークを提案する。
人間の努力を最小限に抑えることで、パフォーマンスを大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-11-23T15:26:24Z) - TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark [24.14654309612826]
TestGenEvalは、1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにまたがるテストファイルペアで構成されている。
初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。
パラメータは7Bから405Bまで様々である。
論文 参考訳(メタデータ) (2024-10-01T14:47:05Z) - TestART: Improving LLM-based Unit Testing via Co-evolution of Automated Generation and Repair Iteration [7.509927117191286]
大規模言語モデル(LLM)は、単体テストケースを生成する際、顕著な能力を示した。
本研究では,新しい単体テスト生成法であるTestARTを提案する。
TestARTは、自動生成と修復の反復の共進化を通じて、LLMベースのユニットテストを改善している。
論文 参考訳(メタデータ) (2024-08-06T10:52:41Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。