論文の概要: Diffusion Beats Autoregressive in Data-Constrained Settings
- arxiv url: http://arxiv.org/abs/2507.15857v1
- Date: Mon, 21 Jul 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.530339
- Title: Diffusion Beats Autoregressive in Data-Constrained Settings
- Title(参考訳): 拡散はデータ制約設定で自己回帰に勝る
- Authors: Mihir Prabhudesai, Menging Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak,
- Abstract要約: 自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
- 参考スコア(独自算出の注目度): 46.06809870740238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) models have long dominated the landscape of large language models, driving progress across a wide range of tasks. Recently, diffusion-based language models have emerged as a promising alternative, though their advantages over AR models remain underexplored. In this paper, we systematically study masked diffusion models in data-constrained settings-where training involves repeated passes over limited data-and find that they significantly outperform AR models when compute is abundant but data is scarce. Diffusion models make better use of repeated data, achieving lower validation loss and superior downstream performance. We interpret this advantage as implicit data augmentation: masked diffusion exposes the model to a diverse distribution of token orderings and prediction tasks, unlike AR's fixed left-to-right factorization. We find new scaling laws for diffusion models and derive a closed-form expression for the critical compute threshold at which diffusion begins to outperform AR. These results suggest that when data, not compute, is the bottleneck, diffusion models offer a compelling alternative to the standard AR paradigm. Our code is available at: https://diffusion-scaling.github.io.
- Abstract(参考訳): 自己回帰(AR)モデルは長い間、大きな言語モデルのランドスケープを支配してきた。
近年,ARモデルよりもアドバンテージが低いものの,拡散型言語モデルが将来性のある選択肢として浮上している。
本稿では,データ制約付き設定におけるマスク付き拡散モデルについて,限られたデータを超える繰り返しパスを伴う学習法を体系的に検討し,計算量が多いがデータが少ない場合,ARモデルよりも有意に優れていることを示す。
拡散モデルは、繰り返しデータをうまく利用し、検証損失を低くし、下流のパフォーマンスを向上する。
マスク付き拡散は、ARの固定左から右への分解とは異なり、トークンの順序と予測タスクの多様な分布にモデルを公開します。
拡散モデルに対する新しいスケーリング法則を発見し,ARよりも拡散が顕著となる臨界計算しきい値に対する閉形式式を導出する。
これらの結果は、データが計算ではなくボトルネックである場合、拡散モデルは標準的なARパラダイムに代わる魅力的な代替手段となることを示唆している。
私たちのコードは、https://diffusion-scaling.github.io.comで利用可能です。
関連論文リスト
- Capturing Conditional Dependence via Auto-regressive Diffusion Models [24.26847446193959]
本研究では, 自己回帰(AR)拡散モデルの有効性について検討した。
理論的な結果は, 典型的な拡散モデルと比較して, データ条件分布の近似において, 差が小さく, サンプルを生成できることを示唆している。
また、データに条件依存構造が明確な場合、AR拡散モデルがそのような構造を捕捉するのに対し、バニラDDPMはそれを行うことができないことを示す実験結果も提供する。
論文 参考訳(メタデータ) (2025-04-30T04:57:12Z) - Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - A Note on Generalization in Variational Autoencoders: How Effective Is Synthetic Data & Overparameterization? [11.15942317329723]
変分オートエンコーダ(VAEs)は、科学的応用に使用される深い確率モデルである。
我々のモチベーションは、現在訓練されている生成モデルを改善するか、あるいは傷つけるかという最近の議論に端を発する。
本研究は, 事前学習した拡散モデルからのサンプルのトレーニングと, 特定の層でより多くのパラメータを併用することにより, VAEの過剰適合を効果的に軽減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation [32.74923906921339]
拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、それらの応用は本質的に遅い生成速度によって妨げられる。
本稿では,拡散モデルの生成効率を向上させるために,各サンプリングステップで動的に計算資源を割り当てる適応フレームワークであるAdaDiffを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:10:04Z) - Fast Inference in Denoising Diffusion Models via MMD Finetuning [23.779985842891705]
拡散モデルの高速サンプリング法であるMDD-DDMを提案する。
我々のアプローチは、学習した分布を所定の予算のタイムステップで微調整するために、最大平均離散性(MMD)を使用するという考え方に基づいている。
提案手法は,広範に普及した拡散モデルで要求されるわずかな時間で高品質なサンプルを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-01-19T09:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。