論文の概要: LLaDA2.0: Scaling Up Diffusion Language Models to 100B
- arxiv url: http://arxiv.org/abs/2512.15745v1
- Date: Wed, 10 Dec 2025 09:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.650386
- Title: LLaDA2.0: Scaling Up Diffusion Language Models to 100B
- Title(参考訳): LLaDA2.0: 拡散言語モデルを100億ドルにスケールアップ
- Authors: Tiwei Bie, Maosong Cao, Kun Chen, Lun Du, Mingliang Gong, Zhuochen Gong, Yanmei Gu, Jiaqi Hu, Zenan Huang, Zhenzhong Lan, Chengxi Li, Chongxuan Li, Jianguo Li, Zehuan Li, Huabin Liu, Ling Liu, Guoshan Lu, Xiaocheng Lu, Yuxin Ma, Jianfeng Tan, Lanning Wei, Ji-Rong Wen, Yipeng Xing, Xiaolu Zhang, Junbo Zhao, Da Zheng, Jun Zhou, Junlin Zhou, Zhanchao Zhou, Liwang Zhu, Yihong Zhuang,
- Abstract要約: LLaDA2.0 - 離散拡散大言語モデル(dLLM)を100億の総パラメータにスケールアップする。
LLaDA2.0は知識継承、進歩的適応、効率性に配慮した設計原則を支持している。
LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) の2つの命令調整型Mixture-of-Experts (MoE) が実用的展開に最適化されている。
- 参考スコア(独自算出の注目度): 96.84156938318931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents LLaDA2.0 -- a tuple of discrete diffusion large language models (dLLM) scaling up to 100B total parameters through systematic conversion from auto-regressive (AR) models -- establishing a new paradigm for frontier-scale deployment. Instead of costly training from scratch, LLaDA2.0 upholds knowledge inheritance, progressive adaption and efficiency-aware design principle, and seamless converts a pre-trained AR model into dLLM with a novel 3-phase block-level WSD based training scheme: progressive increasing block-size in block diffusion (warm-up), large-scale full-sequence diffusion (stable) and reverting back to compact-size block diffusion (decay). Along with post-training alignment with SFT and DPO, we obtain LLaDA2.0-mini (16B) and LLaDA2.0-flash (100B), two instruction-tuned Mixture-of-Experts (MoE) variants optimized for practical deployment. By preserving the advantages of parallel decoding, these models deliver superior performance and efficiency at the frontier scale. Both models were open-sourced.
- Abstract(参考訳): 本稿では,自己回帰(AR)モデルからの体系的変換を通じて,最大100Bのパラメータをスケールする離散拡散大言語モデル(dLLM)のタプルであるLLaDA2.0について述べる。
LLaDA2.0は、スクラッチからコストのかかるトレーニングではなく、知識継承、プログレッシブ適応、効率を意識した設計原則を支持し、新しい3フェーズブロックレベルのWSDベースのトレーニングスキームで、事前訓練されたARモデルをdLLMにシームレスに変換する。
SFT と DPO との訓練後アライメントと合わせて LLaDA2.0-mini (16B) と LLaDA2.0-flash (100B) を得る。
並列デコーディングの利点を保ちながら、これらのモデルはフロンティアスケールで優れた性能と効率を提供する。
どちらのモデルもオープンソース化された。
関連論文リスト
- DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models [43.99949601044522]
拡散視覚言語モデル (dVLM) は依然として主流モデルよりもかなり遅れている。
我々は、任意の強力なARモデルから変換可能なdVLMファミリーであるDiffusionVLを提案する。
DiffusionVLは、MMMU-Pro(vision)ベンチで34.4%、MME(Cog)ベンチで37.5%という総合的なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-12-17T18:59:55Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - LLaDA-MoE: A Sparse MoE Diffusion Language Model [88.96960440635992]
LLaDA-MoEはMixture-of-Experts (MoE)アーキテクチャを持つ大規模言語拡散モデルである。
LLaDA-MoEは計算オーバーヘッドを大幅に削減して競合性能を達成する。
この結果から,マスク拡散言語モデルの学習目標に疎結合したMoEアーキテクチャを組み込むことで,MoEの強みがもたらされることが示唆された。
論文 参考訳(メタデータ) (2025-09-29T07:38:59Z) - David helps Goliath: Inference-Time Collaboration Between Small
Specialized and Large General Diffusion LMs [49.822063966687175]
拡散に基づく言語モデルは、自己回帰型LMに代わる有望な選択肢として浮上している。
我々は最近提案した拡散モデルSSD-LMを0.4Bから13Bパラメータに拡張する方法を提案する。
SSD-2は、個々のユーザがカスタマイズしてデプロイできる100倍の小型モデルで、新しいアンサンブルを促進する。
論文 参考訳(メタデータ) (2023-05-24T06:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。