論文の概要: Scaling Beyond Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.15014v1
- Date: Mon, 16 Feb 2026 18:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.639674
- Title: Scaling Beyond Masked Diffusion Language Models
- Title(参考訳): マスケ拡散言語モデルを越えたスケーリング
- Authors: Subham Sekhar Sahoo, Jean-Marie Lemercier, Zhihan Yang, Justin Deschenaux, Jingyu Liu, John Thickstun, Ante Jukic,
- Abstract要約: 本稿では、一様状態と補間離散拡散法の最初のスケーリング法則について述べる。
単純なクロスエントロピーで学習すると,Masked拡散モデルによりFLOPs効率が約12%向上することを示す。
- 参考スコア(独自算出の注目度): 18.68471174706656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion language models are a promising alternative to autoregressive models due to their potential for faster generation. Among discrete diffusion approaches, Masked diffusion currently dominates, largely driven by strong perplexity on language modeling benchmarks. In this work, we present the first scaling law study of uniform-state and interpolating discrete diffusion methods. We also show that Masked diffusion models can be made approximately 12% more FLOPs-efficient when trained with a simple cross-entropy objective. We find that perplexity is informative within a diffusion family but can be misleading across families, where models with worse likelihood scaling may be preferable due to faster and more practical sampling, as reflected by the speed-quality Pareto frontier. These results challenge the view that Masked diffusion is categorically the future of diffusion language modeling and that perplexity alone suffices for cross-algorithm comparison. Scaling all methods to 1.7B parameters, we show that uniform-state diffusion remains competitive on likelihood-based benchmarks and outperforms autoregressive and Masked diffusion models on GSM8K, despite worse validation perplexity. We provide the code, model checkpoints, and video tutorials on the project page: http://s-sahoo.github.io/scaling-dllms
- Abstract(参考訳): 拡散言語モデルは、より高速な生成の可能性のため、自己回帰モデルに代わる有望な選択肢である。
個別の拡散アプローチの中で、現在マスケッド拡散が支配的であり、主に言語モデリングベンチマークにおける強い難易度によって引き起こされている。
本研究では、一様状態の法則と離散拡散法を補間する最初のスケーリング法則について述べる。
また,単純なクロスエントロピーで学習した場合,Masked拡散モデルによりFLOPs効率が約12%向上することを示した。
拡散系では難易度は有益であるが, 速度品質のパレートフロンティアに反映されるように, より速く, より実用的なサンプリングにより, スケーリングのリスクが低いモデルの方が好まれる。
これらの結果は、マスケ拡散は、拡散言語モデリングの未来を分類的に表し、パープレキシティだけでは、交叉アルゴリズムの比較に十分である、という見解に挑戦する。
提案手法を1.7Bパラメータに拡張すると,一様拡散は確率ベースのベンチマークで競争力を維持し,GSM8K上での自己回帰拡散モデルやMasked拡散モデルよりも優れる。
私たちはプロジェクトページでコード、モデルチェックポイント、ビデオチュートリアルを提供しています。
関連論文リスト
- Scaling Behavior of Discrete Diffusion Language Models [74.72926629897636]
離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
論文 参考訳(メタデータ) (2025-12-11T17:54:10Z) - The Diffusion Duality [24.39272541108744]
一様状態拡散過程は、基礎となるガウス拡散から自然に現れる。
カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットパープレキシティで自己回帰モデルを上回る。
本稿では, 連続から離散的な状態への連続蒸留を適応させる離散一致蒸留について述べる。
論文 参考訳(メタデータ) (2025-06-12T16:55:35Z) - Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。
確率モデリングに遅れがあり、固定長生成に制限される。
本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文 参考訳(メタデータ) (2025-03-12T17:43:40Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。