論文の概要: Double Descent as a Lens for Sample Efficiency in Autoregressive vs. Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.24974v1
- Date: Mon, 29 Sep 2025 16:03:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.11468
- Title: Double Descent as a Lens for Sample Efficiency in Autoregressive vs. Discrete Diffusion Models
- Title(参考訳): 自己回帰と離散拡散モデルにおけるサンプル効率のためのレンズとしての二重蛍光
- Authors: Ahmad Fraij, Sam Dauncey,
- Abstract要約: 本研究では, 離散拡散モデルと自己回帰モデルのサンプル効率を比例的に比較するために, 二重降下現象を用いる。
この結果から, 離散拡散モデルでは十分な容量と計算能力が与えられた場合にのみ, 自己回帰モデルの方がサンプル効率が高いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scarcity drives the need for more sample-efficient large language models. In this work, we use the double descent phenomenon to holistically compare the sample efficiency of discrete diffusion and autoregressive models. We show that discrete diffusion models require larger capacity and more training epochs to escape their underparameterized regime and reach the interpolation threshold. In the strongly overparameterized regime, both models exhibit similar behavior, with neither exhibiting a pronounced second descent in test loss across a large range of model sizes. Overall, our results indicate that autoregressive models are more sample-efficient on small-scale datasets, while discrete diffusion models only become competitive when given sufficient capacity and compute.
- Abstract(参考訳): データ不足により、よりサンプル効率のよい大規模言語モデルの必要性が高まっます。
本研究では, 離散拡散モデルと自己回帰モデルのサンプル効率を比例的に比較するために, 二重降下現象を用いる。
離散拡散モデルでは, パラメータ下状態から脱却し, 補間しきい値に達するためには, より大きなキャパシティと訓練エポックが必要であることを示す。
極度に過度にパラメータ化された状態では、どちらのモデルも同様の振る舞いを示し、どちらも広範囲のモデルサイズにわたるテスト損失の2番目の降下を示しない。
以上の結果から, 離散拡散モデルでは十分な容量と計算能力が与えられた場合にのみ競合するが, 自己回帰モデルの方が小規模なデータセットではよりサンプリング効率が高いことが示唆された。
関連論文リスト
- Diffusion models under low-noise regime [3.729242965449096]
拡散モデルは, 汚損レベルが小さい場合に有効であることを示す。
トレーニングセットのサイズ,データ幾何,および客観選択形状のモデル化方法の定量化を行う。
この研究は、実用的なアプリケーションにおける生成モデルの信頼性に対する理解のギャップに対処し始めます。
論文 参考訳(メタデータ) (2025-06-09T15:07:16Z) - Rethinking Diffusion Model in High Dimension [0.0]
拡散モデルは、基礎となる確率分布の統計量を学ぶことができると仮定する。
しかし、これが本当にうまくいくのか?
ほとんどの推論メソッドは単純なフレームワークで統一できる。
論文 参考訳(メタデータ) (2025-03-11T17:36:11Z) - Continuous Diffusion Model for Language Modeling [64.7425225935854]
離散的データに対する既存の連続拡散モデルは離散的手法と比較して性能が劣る。
本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
本手法は,既存の離散拡散モデルより優れ,自己回帰モデルの性能にアプローチする。
論文 参考訳(メタデータ) (2025-02-17T08:54:29Z) - Accelerated Diffusion Models via Speculative Sampling [89.43940130493233]
投機的サンプリングは、大規模言語モデルにおける推論を加速する一般的な手法である。
我々は投機的サンプリングを拡散モデルに拡張し、連続したベクトル値のマルコフ連鎖を介してサンプルを生成する。
本稿では,ドラフトモデルをトレーニングする必要のない,シンプルで効果的なアプローチを含む,さまざまなドラフト戦略を提案する。
論文 参考訳(メタデータ) (2025-01-09T16:50:16Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。
損失関数により、混合モデルは、次元相関を学習することで、そのような多くのステップの従来のモデルをほんの数ステップに蒸留することができる。
その結果、画像領域と言語領域をまたいだ事前学習した離散拡散モデルの蒸留における提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-11T10:53:03Z) - Discrete Copula Diffusion [44.96934660818884]
離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的な制限を同定する。
我々は,コプラモデルと呼ばれる別の深層生成モデルを導入することで,欠落した依存情報を補うための一般的なアプローチを提案する。
本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。
論文 参考訳(メタデータ) (2024-10-02T18:51:38Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。
本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文 参考訳(メタデータ) (2024-06-23T20:34:18Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。