論文の概要: Dream 7B: Diffusion Large Language Models
- arxiv url: http://arxiv.org/abs/2508.15487v1
- Date: Thu, 21 Aug 2025 12:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.311089
- Title: Dream 7B: Diffusion Large Language Models
- Title(参考訳): Dream 7B: 拡散大言語モデル
- Authors: Jiacheng Ye, Zhihui Xie, Lin Zheng, Jiahui Gao, Zirui Wu, Xin Jiang, Zhenguo Li, Lingpeng Kong,
- Abstract要約: これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。
我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 85.26033751898296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Dream 7B, the most powerful open diffusion large language model to date. Unlike autoregressive (AR) models that generate tokens sequentially, Dream 7B employs discrete diffusion modeling to refine sequences in parallel through iterative denoising. Our model consistently outperforms existing diffusion language models on general, mathematical, and coding tasks. Dream 7B demonstrates superior planning abilities and inference flexibility, including arbitrary-order generation, infilling capabilities, and tunable quality-speed trade-offs. These results are achieved through simple yet effective training techniques, including AR-based LLM initialization and context-adaptive token-level noise rescheduling. We release both Dream-Base and Dream-Instruct to facilitate further research in diffusion-based language modeling.
- Abstract(参考訳): これまでで最も強力なオープン拡散大言語モデルであるDream 7Bを紹介します。
トークンを逐次生成する自己回帰(AR)モデルとは異なり、ドリーム7Bは離散拡散モデルを用いて反復的復調によって配列を並列に洗練する。
我々のモデルは、一般的な、数学的、コーディングタスクにおいて、既存の拡散言語モデルよりも一貫して優れています。
ドリーム7Bは、任意の順序生成、補充能力、調整可能な品質と速度のトレードオフを含む、優れた計画能力と推論の柔軟性を示す。
これらの結果は、ARベースのLLM初期化やコンテキスト適応型トークンレベルのノイズスケジューリングなど、シンプルで効果的なトレーニング手法によって達成される。
我々はDream-BaseとDream-Instructを共にリリースし、拡散に基づく言語モデリングのさらなる研究を促進する。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。
我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。
我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文 参考訳(メタデータ) (2023-05-30T16:43:31Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。