論文の概要: ACECODER: Acing Coder RL via Automated Test-Case Synthesis
- arxiv url: http://arxiv.org/abs/2502.01718v3
- Date: Mon, 10 Feb 2025 18:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:28:43.714487
- Title: ACECODER: Acing Coder RL via Automated Test-Case Synthesis
- Title(参考訳): ACECoDER:自動テストケース合成によるコーダRLの強制
- Authors: Huaye Zeng, Dongfu Jiang, Haozhe Wang, Ping Nie, Xiaotong Chen, Wenhu Chen,
- Abstract要約: 既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
- 参考スコア(独自算出の注目度): 36.740393665032954
- License:
- Abstract: Most progress in recent coder models has been driven by supervised fine-tuning (SFT), while the potential of reinforcement learning (RL) remains largely unexplored, primarily due to the lack of reliable reward data/model in the code domain. In this paper, we address this challenge by leveraging automated large-scale test-case synthesis to enhance code model training. Specifically, we design a pipeline that generates extensive (question, test-cases) pairs from existing code data. Using these test cases, we construct preference pairs based on pass rates over sampled programs to train reward models with Bradley-Terry loss. It shows an average of 10-point improvement for Llama-3.1-8B-Ins and 5-point improvement for Qwen2.5-Coder-7B-Ins through best-of-32 sampling, making the 7B model on par with 236B DeepSeek-V2.5. Furthermore, we conduct reinforcement learning with both reward models and test-case pass rewards, leading to consistent improvements across HumanEval, MBPP, BigCodeBench, and LiveCodeBench (V4). Notably, we follow the R1-style training to start from Qwen2.5-Coder-base directly and show that our RL training can improve model on HumanEval-plus by over 25\% and MBPP-plus by 6\% for merely 80 optimization steps. We believe our results highlight the huge potential of reinforcement learning in coder models.
- Abstract(参考訳): 最近のコーダモデルにおけるほとんどの進歩は、教師付き微調整(SFT)によって推進されているが、強化学習(RL)の可能性は、主にコードドメインに信頼性のある報酬データ/モデルがないために、ほとんど解明されていない。
本稿では,自動大規模テストケース合成を活用して,コードモデルトレーニングを強化することで,この問題に対処する。
具体的には、既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
これらのテストケースを用いて,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムに対するパスレートに基づく選好ペアを構築した。
これは、Llama-3.1-8B-Insの平均10点改善とQwen2.5-Coder-7B-Insの5点改善を示し、236B DeepSeek-V2.5と同等の7Bモデルとなっている。
さらに、報酬モデルとテストケースパスの報酬の両方で強化学習を実施し、HumanEval、MBPP、BigCodeBench、LiveCodeBench(V4)を一貫した改善を実現しました。
特に、我々はQwen2.5-Coder-baseから直接R1スタイルのトレーニングを行い、RLトレーニングがわずか80ステップで25倍以上のHumanEval-plusとMBPP-plusを6倍の精度で改善できることを示します。
我々は,コーダモデルにおける強化学習の可能性を強調した。
関連論文リスト
- UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。
私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。
我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-17T05:37:02Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - How to Select Pre-Trained Code Models for Reuse? A Learning Perspective [29.83900262273832]
市販の事前訓練コードモデル(PCM)が公開されている。
コードインテリジェンスタスクに広く使用されている100のオープンソースPCMで実験を行い、サイズは425万から30億のパラメータです。
その結果, ブラトフォース微調整を施した2,700時間に対して, 学習ベース選択法は選択時間を100秒に短縮した。
論文 参考訳(メタデータ) (2025-01-07T13:45:24Z) - Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining [3.8608102686867762]
Arctic-SnowCoder-1.3Bは、555Bトークンで事前訓練されたデータ効率のベースコードモデルである。
限られたデータセットでトレーニングされているにもかかわらず、Arctic-SnowCoderはBigCodeBenchで最先端のパフォーマンスを達成する。
全ての評価されたベンチマークで、アークティック・スノウコーダー-1.3Bは1Tトークンで事前訓練されたスターコーダーBase-3Bを上回った。
論文 参考訳(メタデータ) (2024-09-03T22:36:42Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Automatic Unit Test Data Generation and Actor-Critic Reinforcement
Learning for Code Synthesis [16.88062487980405]
本稿では,関数シグネチャと関連する単体テストからなるデータを自動的に取得する手法を提案する。
自動生成したトレーニングデータと組み合わせることで,事前学習された言語モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T17:13:16Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。