論文の概要: DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
- arxiv url: http://arxiv.org/abs/2506.20639v1
- Date: Wed, 25 Jun 2025 17:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.88324
- Title: DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
- Title(参考訳): DiffuCoder:コード生成のためのマスク付き拡散モデルの理解と改善
- Authors: Shansan Gong, Ruixiang Zhang, Huangjie Zheng, Jiatao Gu, Navdeep Jaitly, Lingpeng Kong, Yizhe Zhang,
- Abstract要約: 拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
- 参考スコア(独自算出の注目度): 68.19756761027351
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion large language models (dLLMs) are compelling alternatives to autoregressive (AR) models because their denoising models operate over the entire sequence. The global planning and iterative refinement features of dLLMs are particularly useful for code generation. However, current training and inference mechanisms for dLLMs in coding are still under-explored. To demystify the decoding behavior of dLLMs and unlock their potential for coding, we systematically investigate their denoising processes and reinforcement learning (RL) methods. We train a 7B dLLM, \textbf{DiffuCoder}, on 130B tokens of code. Using this model as a testbed, we analyze its decoding behavior, revealing how it differs from that of AR models: (1) dLLMs can decide how causal their generation should be without relying on semi-AR decoding, and (2) increasing the sampling temperature diversifies not only token choices but also their generation order. This diversity creates a rich search space for RL rollouts. For RL training, to reduce the variance of token log-likelihood estimates and maintain training efficiency, we propose \textbf{coupled-GRPO}, a novel sampling scheme that constructs complementary mask noise for completions used in training. In our experiments, coupled-GRPO significantly improves DiffuCoder's performance on code generation benchmarks (+4.4\% on EvalPlus) and reduces reliance on AR causal during decoding. Our work provides deeper insight into the machinery of dLLM generation and offers an effective, diffusion-native RL training framework. https://github.com/apple/ml-diffucoder.
- Abstract(参考訳): 拡散大言語モデル(dLLMs)は、自己回帰(AR)モデルに代わる魅力的な選択肢である。
dLLMのグローバルな計画と反復的な洗練機能は、特にコード生成に有用である。
しかし、コーディングにおけるdLLMの現在のトレーニングと推論メカニズムはまだ未定である。
復号化過程と強化学習法(RL)を体系的に検討し,dLLMの復号化動作の復号化と符号化の可能性の解放を図る。
130Bのコードトークン上で、7B dLLM, \textbf{DiffuCoder} をトレーニングします。
1)dLLMは,セミARデコードに頼らずにどのように因果関係を決定できるのか,(2)サンプリング温度の増大はトークン選択だけでなく,生成順序も多様化する。
この多様性は、RLロールアウトのためのリッチな検索スペースを生み出します。
RLトレーニングでは,トークンログ類似度推定のばらつきを低減し,トレーニング効率を維持するため,トレーニングに使用される補完マスクノイズを構成する新しいサンプリング手法である「textbf{coupled-GRPO}」を提案する。
我々の実験では、結合GRPOはコード生成ベンチマークにおけるDiffuCoderのパフォーマンスを著しく改善し(EvalPlusでは+4.4\%)、デコード時のAR因果依存性を減らす。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
https://github.com/apple/ml-diffucoder.com
関連論文リスト
- d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。
本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-23T07:22:33Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。
提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文 参考訳(メタデータ) (2023-07-10T05:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。