論文の概要: Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs
- arxiv url: http://arxiv.org/abs/2604.10074v1
- Date: Sat, 11 Apr 2026 07:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.825165
- Title: Transformers Learn the Optimal DDPM Denoiser for Multi-Token GMMs
- Title(参考訳): 変換器はマルチトークンGMMのための最適DDPMデノイザを学習する
- Authors: Hongkang Li, Hancheng Min, Rene Vidal,
- Abstract要約: 本稿では,変圧器を用いた拡散モデルのトレーニングのための最初の収束解析を行う。
人口の拡散確率モデル (DDPM) の目的を, 人口の分散確率モデル (DDPM) とみなす。
より深い調査により、トレーニングされた平均偏極モジュールは、拡散ステップにおける注入音の最小値平均正方形誤差(MMSE)を近似することができることが明らかになった。
- 参考スコア(独自算出の注目度): 13.741630476895773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based diffusion models have demonstrated remarkable performance at generating high-quality samples. However, our theoretical understanding of the reasons for this success remains limited. For instance, existing models are typically trained by minimizing a denoising objective, which is equivalent to fitting the score function of the training data. However, we do not know why transformer-based models can match the score function for denoising, or why gradient-based methods converge to the optimal denoising model despite the non-convex loss landscape. To the best of our knowledge, this paper provides the first convergence analysis for training transformer-based diffusion models. More specifically, we consider the population Denoising Diffusion Probabilistic Model (DDPM) objective for denoising data that follow a multi-token Gaussian mixture distribution. We theoretically quantify the required number of tokens per data point and training iterations for the global convergence towards the Bayes optimal risk of the denoising objective, thereby achieving a desired score matching error. A deeper investigation reveals that the self-attention module of the trained transformer implements a mean denoising mechanism that enables the trained model to approximate the oracle Minimum Mean Squared Error (MMSE) estimator of the injected noise in the diffusion steps. Numerical experiments validate these findings.
- Abstract(参考訳): トランスフォーマーに基づく拡散モデルは、高品質なサンプルを生成する際、顕著な性能を示した。
しかし、この成功の理由に関する理論的理解は依然として限られている。
例えば、既存のモデルは典型的には、トレーニングデータのスコア関数に適合するデノナイジング目標を最小化することでトレーニングされる。
しかし、トランスフォーマーベースモデルがスコア関数と一致する理由や、非凸ロスランドスケープにもかかわらず勾配ベース手法が最適デノナイジングモデルに収束する理由がわからない。
我々の知る限り、この論文はトランスフォーマーに基づく拡散モデルのトレーニングのための最初の収束解析を提供する。
具体的には,多孔質ガウス混合分布を追従するデータをデノナイズするDDPM(Denoising Diffusion Probabilistic Model)の目的について考察する。
理論的には,各データポイント当たりのトークン数と,ベイズ最適リスクに対するグローバル収束の訓練反復数を定量化し,所望のスコアマッチング誤差を実現する。
より深い調査により、トレーニングされた変圧器の自己アテンションモジュールが平均デノナイジング機構を実装し、トレーニングされたモデルが拡散ステップにおける注入音の最小値平均二乗誤差(MMSE)推定器を近似できるようにすることが明らかになった。
数値実験はこれらの発見を検証した。
関連論文リスト
- Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Noise Conditional Variational Score Distillation [60.38982038894823]
騒音条件変化スコア蒸留(NCVSD)は, 予混合拡散モデルから生成消音剤を蒸留する新しい方法である。
この知見を変分スコア蒸留フレームワークに組み込むことで、生成的デノイザのスケーラブルな学習を可能にする。
論文 参考訳(メタデータ) (2025-06-11T06:01:39Z) - Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [19.62665684173391]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本稿では,マーチンゲールに基づく誤り分解とシャープな分散境界を導入し,従属データから効率的な学習を可能にする。
これらの知見に基づいて,より高い雑音レベルにおいて精度を向上させるために,事前学習したスコアを活用する分散低減手法であるBootstrapped Score Matching (BSM)を提案する。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Interpreting and Improving Diffusion Models from an Optimization Perspective [4.5993996573872185]
我々はこの観測を用いて、ユークリッド距離関数に適用された近似勾配勾配勾配として拡散モデルを解釈する。
本稿では,理論結果からの洞察を用いてDDIMを一般化した新しい勾配推定サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T00:56:33Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Generative Modeling with Denoising Auto-Encoders and Langevin Sampling [88.83704353627554]
DAEとDSMの両方がスムーズな人口密度のスコアを推定することを示した。
次に、この結果をarXiv:1907.05600のホモトピー法に適用し、その経験的成功を理論的に正当化する。
論文 参考訳(メタデータ) (2020-01-31T23:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。