論文の概要: Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
- arxiv url: http://arxiv.org/abs/2601.15892v1
- Date: Thu, 22 Jan 2026 12:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.593952
- Title: Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model
- Title(参考訳): 安定DiffCoder: コード拡散大言語モデルのフロンティアを推し進める
- Authors: Chenghao Fan, Wen Heng, Bo Li, Sichen Liu, Yuxuan Song, Jing Su, Xiaoye Qu, Kai Shen, Wei Wei,
- Abstract要約: 拡散ベース言語モデル(DLLM)は、自己回帰(AR)モデルと比較して、非順序、ブロックワイズ、リッチなデータ再利用を提供する。
私たちは、Seed-Coderアーキテクチャ、データ、トレーニングパイプラインを再利用するブロック拡散コードモデルであるStable-DiffCoderを紹介します。
- 参考スコア(独自算出の注目度): 35.59660517313579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.
- Abstract(参考訳): 拡散ベース言語モデル(DLLM)は、自動回帰(AR)モデルと比較して、非逐次的でブロックワイドなデータ再利用を提供するが、既存のコードDLLMは、同等の予算の下で強力なARベースラインを遅れている。
この設定を制御された研究で再検討し、Seed-Coderアーキテクチャ、データ、トレーニングパイプラインを再利用するブロック拡散コードモデルであるStable-DiffCoderを紹介します。
効率的な知識学習と安定したトレーニングを実現するため,適応型ウォームアップとブロックワイドノイズスケジュールによって強化されたブロック拡散継続事前訓練(CPT)ステージを組み込んだ。
同じデータとアーキテクチャの下では、Stable-DiffCoderは、幅広いコードベンチマークでARよりも総合的に優れている。
さらに、CPTと教師付き微調整ステージのみに依存して、Stable-DiffCoderは、広範囲の〜8BのARやDLLMよりも強力なパフォーマンスを実現し、拡散ベースのトレーニングがARトレーニング以外にもコードモデリングの品質を向上させることを実証している。
さらに、拡散に基づく任意の順序モデリングは、編集と推論のための構造化コードモデリングを改善し、データ拡張を通じて、低リソースのコーディング言語に恩恵をもたらす。
関連論文リスト
- DiffBench Meets DiffAgent: End-to-End LLM-Driven Diffusion Acceleration Code Generation [25.165655684862074]
我々は,大規模言語モデル(LLM)によって駆動されるフレームワークを導入し,自動アクセラレーションコード生成と評価を行う。
まず,3段階の自動評価パイプラインを実装した総合ベンチマークであるDiffBenchを紹介する。
次に、任意の拡散モデルのための最適な加速度戦略と符号を生成するエージェントDiffAgentを提案する。
論文 参考訳(メタデータ) (2026-01-06T16:55:55Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。