論文の概要: Dream-Coder 7B: An Open Diffusion Language Model for Code
- arxiv url: http://arxiv.org/abs/2509.01142v1
- Date: Mon, 01 Sep 2025 05:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.552384
- Title: Dream-Coder 7B: An Open Diffusion Language Model for Code
- Title(参考訳): Dream-Coder 7B: コードのためのオープン拡散言語モデル
- Authors: Zhihui Xie, Jiacheng Ye, Lin Zheng, Jiahui Gao, Jingwei Dong, Zirui Wu, Xueliang Zhao, Shansan Gong, Xin Jiang, Zhenguo Li, Lingpeng Kong,
- Abstract要約: そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。
厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
- 参考スコア(独自算出の注目度): 99.14959222355988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dream-Coder 7B, an open-source discrete diffusion language model for code generation that exhibits emergent any-order generation capabilities. Unlike traditional autoregressive (AR) models that decode strictly left-to-right, Dream-Coder 7B adaptively determines its decoding strategy based on the coding task: sketch-first generation for complex algorithms, left-to-right generation for straightforward completions, and interleaved reasoning generation for code understanding tasks. We adapt a pretrained AR checkpoint to a discrete diffusion frameworks with a continuous-time weighted cross-entropy objective. Our post-training recipe comprises (i) supervised fine-tuning, where we mitigate padding pathologies via random truncation and a padding penalty to improve sample efficiency and stabilize generation; and (ii) reinforcement learning with verifiable rewards over a curated high-quality prompt set drawn from open-source datasets, using a tailored reinforcement learning recipe for diffusion language models. The resulting Dream-Coder 7B Instruct attains 21.4\% pass@1 on LiveCodeBench (2410--2505) and demonstrates competitive performance on HumanEval, MBPP, BigCodeBench, and CRUXEval. We release Dream-Coder-7B and Dream-Coder-7B-Instruct checkpoints, training recipes, preprocessing pipelines, and inference code to facilitate reproducibility and further research.
- Abstract(参考訳): そこで,Dream-Coder 7Bを提案する。Dream-Coder 7Bは,任意の順序生成能力を示すコード生成のための,オープンソースの離散拡散言語モデルである。
厳密に左から右にデコードする従来の自己回帰(AR)モデルとは異なり、ドリームコーダ7Bはコーディングタスクに基づいてデコード戦略を適応的に決定する。
我々は、事前訓練されたARチェックポイントを、連続時間重み付きクロスエントロピー目的の離散拡散フレームワークに適用する。
私たちのポストトレーニングのレシピは
一 サンプル効率の向上及び発生の安定化を図るため、無作為な乱れ及び水田罰による水田病を緩和する微調整を監督すること。
二 拡散言語モデルに適した強化学習法を用いて、オープンソースのデータセットから抽出した高品質なプロンプトセットに対する検証可能な報酬付き強化学習を行う。
結果、Dream-Coder 7BインストラクトはLiveCodeBench (2410-2505)で21.4\%パス@1に達し、HumanEval、MBPP、BigCodeBench、CRUXEval上での競合性能を示している。
我々はDream-Coder-7BとDream-Coder-7B-Instruct checkpoints、トレーニングレシピ、前処理パイプライン、推論コードをリリースした。
関連論文リスト
- Dream 7B: Diffusion Large Language Models [85.26033751898296]
これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。
我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T12:09:58Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings [2.1262605464247812]
自己蒸留(Self-Distillation)は、様々なコード理解タスクにおける正確性のための推論コストの取引方法である。
我々のアーキテクチャは、特定のエンコーダ層を出口ヘッドとしてターゲットとして、テキスト・ツー・コード検索とコード・ツー・コード検索を改善している。
我々は、テキストからコードへのベンチマークを言語間のコード-コードペアで拡張するコード翻訳によって作成された新しいデータセットをリリースする。
論文 参考訳(メタデータ) (2025-03-04T21:08:17Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。