論文の概要: Double Descent as a Lens for Sample Efficiency in Autoregressive vs. Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.24974v1
- Date: Mon, 29 Sep 2025 16:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.11468
- Title: Double Descent as a Lens for Sample Efficiency in Autoregressive vs. Discrete Diffusion Models
- Title(参考訳): 自己回帰と離散拡散モデルにおけるサンプル効率のためのレンズとしての二重蛍光
- Authors: Ahmad Fraij, Sam Dauncey,
- Abstract要約: 本研究では, 離散拡散モデルと自己回帰モデルのサンプル効率を比例的に比較するために, 二重降下現象を用いる。
この結果から, 離散拡散モデルでは十分な容量と計算能力が与えられた場合にのみ, 自己回帰モデルの方がサンプル効率が高いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity drives the need for more sample-efficient large language models. In this work, we use the double descent phenomenon to holistically compare the sample efficiency of discrete diffusion and autoregressive models. We show that discrete diffusion models require larger capacity and more training epochs to escape their underparameterized regime and reach the interpolation threshold. In the strongly overparameterized regime, both models exhibit similar behavior, with neither exhibiting a pronounced second descent in test loss across a large range of model sizes. Overall, our results indicate that autoregressive models are more sample-efficient on small-scale datasets, while discrete diffusion models only become competitive when given sufficient capacity and compute.
- Abstract(参考訳): データ不足により、よりサンプル効率のよい大規模言語モデルの必要性が高まっます。
本研究では, 離散拡散モデルと自己回帰モデルのサンプル効率を比例的に比較するために, 二重降下現象を用いる。
離散拡散モデルでは, パラメータ下状態から脱却し, 補間しきい値に達するためには, より大きなキャパシティと訓練エポックが必要であることを示す。
極度に過度にパラメータ化された状態では、どちらのモデルも同様の振る舞いを示し、どちらも広範囲のモデルサイズにわたるテスト損失の2番目の降下を示しない。
以上の結果から, 離散拡散モデルでは十分な容量と計算能力が与えられた場合にのみ競合するが, 自己回帰モデルの方が小規模なデータセットではよりサンプリング効率が高いことが示唆された。
関連論文リスト
- Diffusion models under low-noise regime [3.729242965449096]
拡散モデルは, 汚損レベルが小さい場合に有効であることを示す。
トレーニングセットのサイズ,データ幾何,および客観選択形状のモデル化方法の定量化を行う。
この研究は、実用的なアプリケーションにおける生成モデルの信頼性に対する理解のギャップに対処し始めます。
論文 参考訳(メタデータ) (2025-06-09T15:07:16Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。
損失関数により、混合モデルは、次元相関を学習することで、そのような多くのステップの従来のモデルをほんの数ステップに蒸留することができる。
その結果、画像領域と言語領域をまたいだ事前学習した離散拡散モデルの蒸留における提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-11T10:53:03Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。