論文の概要: Scaling Behavior of Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2512.10858v1
- Date: Thu, 11 Dec 2025 17:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.491437
- Title: Scaling Behavior of Discrete Diffusion Language Models
- Title(参考訳): 離散拡散言語モデルのスケーリング挙動
- Authors: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto,
- Abstract要約: 離散拡散言語モデル(DLM)の様々なノイズタイプに対するスケーリング挙動について検討する。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
均一拡散モデルを1022ドルのFLOPでトレーニングした10Bパラメータまで拡張し、予測されたスケーリング挙動を確認し、現在までに最も広く知られている均一拡散モデルとした。
- 参考スコア(独自算出の注目度): 74.72926629897636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for $10^{22}$ FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
- Abstract(参考訳): 現代のLLM事前トレーニングでは、大量の計算とトレーニングデータを消費し、異なるモデルのスケーリング動作やスケーリング法則を重要な差別化要因としています。
自己回帰言語モデル(ALM)の代替として,離散拡散言語モデル(DLM)が提案されている。
しかし、これらのスケーリングの挙動はまだ完全には解明されておらず、以前の研究は、ALMのパフォーマンスに合わせたデータと計算を必要とすることを示唆していた。
マスクと均一拡散を円滑に補間し,バッチサイズや学習率などの重要なハイパーパラメータに注意を払って,異なるノイズタイプにおけるDLMのスケーリング挙動について検討した。
実験の結果,DLMのスケーリング挙動はノイズの種類によって大きく異なり,ALMとはかなり異なることがわかった。
すべてのノイズタイプは、計算バウンドスケーリングにおいて同様の損失値に収束するが、均一な拡散は、マスク付き拡散と比較して、計算効率のトレーニングにより多くのパラメータと少ないデータを必要とすることが判明し、データバウンド設定において有望な候補となる。
均一拡散モデルを10×22=FLOPでトレーニングした10Bパラメータまで拡張し,予測されたスケーリング挙動を確認し,これまでで最大規模の均一拡散モデルとなった。
関連論文リスト
- Diffusion Beats Autoregressive in Data-Constrained Settings [50.56893491038853]
自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
本研究では,限られたデータ上で繰り返し学習を行うデータ制約付き環境で,マスク拡散モデルについて系統的に研究する。
我々の結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
論文 参考訳(メタデータ) (2025-07-21T17:59:57Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。