論文の概要: MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2603.16077v1
- Date: Tue, 17 Mar 2026 02:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.077785
- Title: MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models
- Title(参考訳): MDM-Prime-v2: 拡散言語モデルの計算最適スケーリングを可能にするバイナリエンコーディングとインデックスシャッフル
- Authors: Chen-Hao Chao, Wei-Fang Sun, Junwei Qua, Chun-Yi Lee, Rahul G. Krishnan,
- Abstract要約: マスケ拡散モデル(MDM)は部分マスキングスキーム(Prime)を用いて学習するとより優れた一般化を示す
バイナリーセンスとシャッフルを組み込んだマスク付き拡散言語モデルであるMDM-Prime-v2を開発した。
計算最適比較では、MDM-Prime-v2はOpenWebText上で7.77パープレキシティを達成し、ARM(12.99)、DM(18.94)、MDM(13.41)を上回った。
- 参考スコア(独自算出の注目度): 26.967863200265494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked diffusion models (MDM) exhibit superior generalization when learned using a Partial masking scheme (Prime). This approach converts tokens into sub-tokens and models the diffusion process at the sub-token level. We identify two limitations of the MDM-Prime framework. First, we lack tools to guide the hyperparameter choice of the token granularity in the subtokenizer. Second, we find that the function form of the subtokenizer significantly degrades likelihood estimation when paired with commonly used Byte-Pair-Encoding (BPE) tokenizers. To address these limitations, we study the tightness of the variational bound in MDM-Prime and develop MDM-Prime-v2, a masked diffusion language model which incorporates Binary Encoding and Index Shuffling. Our scaling analysis reveals that MDM-Prime-v2 is 21.8$\times$ more compute-efficient than autoregressive models (ARM). In compute-optimal comparisons, MDM-Prime-v2 achieves 7.77 perplexity on OpenWebText, outperforming ARM (12.99), MDM (18.94), and MDM-Prime (13.41). When extending the model size to 1.1B parameters, our model further demonstrates superior zero-shot accuracy on various commonsense reasoning tasks.
- Abstract(参考訳): 仮面拡散モデル(MDM)は部分マスキングスキーム(Prime)を用いて学習するとより優れた一般化を示す。
このアプローチはトークンをサブトークンに変換し、サブトークンレベルで拡散過程をモデル化する。
MDM-Primeフレームワークには2つの制限がある。
まず、サブトークン化器におけるトークン粒度のハイパーパラメータ選択を導くためのツールが欠如している。
第2に,一般に使用されているByte-Pair-Encoding(BPE)トークンと組み合わせた場合,サブトケナイザの関数形式は推定精度を著しく低下させることがわかった。
これらの制約に対処するため、MDM-Primeにおける変動境界の厳密性について検討し、バイナリエンコーディングとインデックスシャッフルを組み込んだマスク付き拡散言語モデルであるMDM-Prime-v2を開発した。
我々のスケーリング分析によると、MDM-Prime-v2は自己回帰モデル(ARM)よりも21.8$\times$の計算効率が高い。
計算最適比較では、MDM-Prime-v2はOpenWebText上で7.77パープレキシティを獲得し、ARM(12.99)、MDM (18.94)、MDM-Prime(13.41)を上回っている。
モデルのサイズを1.1Bパラメータに拡張すると、様々なコモンセンス推論タスクにおいて、より優れたゼロショット精度が示される。
関連論文リスト
- Unifying Masked Diffusion Models with Various Generation Orders and Beyond [56.70289720766803]
仮面拡散モデル(MDM)は、言語生成のための自己回帰モデル(ARM)の潜在的な代替品である。
広範な拡散生成過程のための秩序表現型マスク拡散モデル(OeMDM)を提案する。
生成順序と拡散バックボーンを共同で学習する学習順マスク拡散モデル(LoMDM)を導入する。
論文 参考訳(メタデータ) (2026-02-02T13:54:32Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Any-Order Flexible Length Masked Diffusion [53.89217188409148]
マスク付き拡散モデル(MDMs)は、最近、離散領域上の自己回帰モデルに代わる有望な代替として登場した。
本稿では,フレキシブルマスク付き拡散モデル (FlexMDM) を紹介する。
我々は,FlexMDMがMDMと複雑度を一致させながら,より忠実度の高い長さ統計をモデル化することを示した。
論文 参考訳(メタデータ) (2025-08-31T23:34:53Z) - Beyond Masked and Unmasked: Discrete Diffusion Models via Partial Masking [28.55159825491572]
マスケード拡散モデル(MDM)は、離散データのための強力な生成モデルであり、段階的にトークンを配列で解き放つことでサンプルを生成する。
本稿では、トークンがマスクされた状態とマスクされていない状態の間を中間状態にすることでMDMを増強する部分マスキングスキーム(Prime)を提案する。
本手法は,多種多様な生成モデルタスクに対して優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-24T04:16:40Z) - Large Language Diffusion Models [93.26422905620008]
大規模言語モデル(LLM)は自己回帰モデル(ARM)に依存していると考えられている。
我々は,事前学習および教師付き微調整パラダイムの下で,ゼロから学習した拡散モデルであるLLaDAを紹介する。
一般的なタスクや数学、コードなどに関する広範なベンチマークを通じて、LLaDAは強力なスケーラビリティを示し、自己構築されたARMベースラインと互換性のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-14T08:23:51Z) - Scaling up Masked Diffusion Models on Text [43.16800764711572]
仮面拡散モデル(MDM)は言語モデリングにおいて有望であることを示す。
本稿では,MDMのスケーリングに関する最初の法則を確立する。
我々は、最大11億(B)のパラメータを持つMDMのファミリーをトレーニングし、そのパフォーマンスをより大きなサイズに対して評価する。
論文 参考訳(メタデータ) (2024-10-24T08:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。