Fugu-MT 論文翻訳(概要): DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

論文の概要: DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

arxiv url: http://arxiv.org/abs/2506.20639v1
Date: Wed, 25 Jun 2025 17:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-26 21:00:42.88324
Title: DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
Title（参考訳）: DiffuCoder:コード生成のためのマスク付き拡散モデルの理解と改善
Authors: Shansan Gong, Ruixiang Zhang, Huangjie Zheng, Jiatao Gu, Navdeep Jaitly, Lingpeng Kong, Yizhe Zhang,
Abstract要約: 拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
参考スコア（独自算出の注目度）: 68.19756761027351
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion large language models (dLLMs) are compelling alternatives to autoregressive (AR) models because their denoising models operate over the entire sequence. The global planning and iterative refinement features of dLLMs are particularly useful for code generation. However, current training and inference mechanisms for dLLMs in coding are still under-explored. To demystify the decoding behavior of dLLMs and unlock their potential for coding, we systematically investigate their denoising processes and reinforcement learning (RL) methods. We train a 7B dLLM, \textbf{DiffuCoder}, on 130B tokens of code. Using this model as a testbed, we analyze its decoding behavior, revealing how it differs from that of AR models: (1) dLLMs can decide how causal their generation should be without relying on semi-AR decoding, and (2) increasing the sampling temperature diversifies not only token choices but also their generation order. This diversity creates a rich search space for RL rollouts. For RL training, to reduce the variance of token log-likelihood estimates and maintain training efficiency, we propose \textbf{coupled-GRPO}, a novel sampling scheme that constructs complementary mask noise for completions used in training. In our experiments, coupled-GRPO significantly improves DiffuCoder's performance on code generation benchmarks (+4.4\% on EvalPlus) and reduces reliance on AR causal during decoding. Our work provides deeper insight into the machinery of dLLM generation and offers an effective, diffusion-native RL training framework. https://github.com/apple/ml-diffucoder.
Abstract（参考訳）: 拡散大言語モデル(dLLMs)は、自己回帰(AR)モデルに代わる魅力的な選択肢である。 dLLMのグローバルな計画と反復的な洗練機能は、特にコード生成に有用である。しかし、コーディングにおけるdLLMの現在のトレーニングと推論メカニズムはまだ未定である。復号化過程と強化学習法(RL)を体系的に検討し,dLLMの復号化動作の復号化と符号化の可能性の解放を図る。 130Bのコードトークン上で、7B dLLM, \textbf{DiffuCoder} をトレーニングします。 1)dLLMは,セミARデコードに頼らずにどのように因果関係を決定できるのか,(2)サンプリング温度の増大はトークン選択だけでなく,生成順序も多様化する。この多様性は、RLロールアウトのためのリッチな検索スペースを生み出します。 RLトレーニングでは,トークンログ類似度推定のばらつきを低減し,トレーニング効率を維持するため,トレーニングに使用される補完マスクノイズを構成する新しいサンプリング手法である「textbf{coupled-GRPO}」を提案する。我々の実験では、結合GRPOはコード生成ベンチマークにおけるDiffuCoderのパフォーマンスを著しく改善し(EvalPlusでは+4.4\%)、デコード時のAR因果依存性を減らす。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。 https://github.com/apple/ml-diffucoder.com

関連論文リスト

ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文参考訳（メタデータ） (2025-06-13T03:41:04Z)
VerIF: Verification Engineering for Reinforcement Learning in Instruction Following [55.60192044049083]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の強化の鍵となる技術となっている。ルールベースのコード検証とLLMベースの大規模な推論モデルによる検証を組み合わせた検証手法であるVerIFを提案する。我々はVerIFを用いたRLトレーニングを2つのモデルに適用し、いくつかの代表的な命令追従ベンチマークで大幅に改善した。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文参考訳（メタデータ） (2025-05-28T20:59:22Z)
d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。 d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-16T16:08:45Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
RLTF: Reinforcement Learning from Unit Test Feedback [17.35361167578498]
Reinforcement Learning from Unit Test Feedback(リンク)は、新しいオンラインRLフレームワークである。提案手法は,訓練中にリアルタイムにデータを生成し,高精度なフィードバック信号を用いて高品質なコードを生成する。
論文参考訳（メタデータ） (2023-07-10T05:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。