論文の概要: The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum
- arxiv url: http://arxiv.org/abs/2602.21185v1
- Date: Tue, 24 Feb 2026 18:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.884045
- Title: The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum
- Title(参考訳): 拡散二重性 第2章:$$$Samplers and Efficient Curriculum
- Authors: Justin Deschenaux, Caglar Gulcehre, Subham Sekhar Sahoo,
- Abstract要約: 離散拡散のためのプレデクター・コレクター・サンプルのファミリーを紹介する。
均一状態拡散と組み合わせた場合、サンプルは言語と画像のモデリングの両方において祖先サンプリングより優れている。
これらの結果は,Masked 拡散が拡散に基づく言語モデリングの必然的未来であるという仮定を疑問視している。
- 参考スコア(独自算出の注目度): 13.49715655470027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2
- Abstract(参考訳): 一様状態の離散拡散モデルは、自己修正能力のため、数段階の生成とガイダンスで優れており、これらの設定では自己回帰的またはマスケッド拡散モデルよりも好まれる。
しかし, そのサンプリング精度は, ステップ数の増加に伴って向上する。
本稿では,事前の手法を一般化し,任意のノイズ処理に適用する離散拡散のための予測・コレクタ(PC)サンプリング器群を紹介する。
単一状態拡散と組み合わせると,サンプルは言語と画像モデリングの両方において祖先サンプリングを上回り,OpenWebText上で一致したユニグラムエントロピーで低い生成パープレキシティを実現し,CIFAR10上でのFID/ISスコアが向上した。
重要なことは、従来のサンプリングと異なり、我々のPC手法はより多くのサンプリングステップで改善され続けている。
これらの知見を総合して、マスケッド拡散が拡散に基づく言語モデリングの必然的未来であるという仮定を疑問視する。
サンプリングの他に,ガウス緩和訓練フェーズのメモリ効率向上カリキュラムを開発し,Duoと比較してトレーニング時間を25%削減し,メモリを33%削減した。
コード、チェックポイント、ビデオチュートリアルをリリースします。
関連論文リスト
- Scaling Beyond Masked Diffusion Language Models [18.68471174706656]
本稿では、一様状態と補間離散拡散法の最初のスケーリング法則について述べる。
単純なクロスエントロピーで学習すると,Masked拡散モデルによりFLOPs効率が約12%向上することを示す。
論文 参考訳(メタデータ) (2026-02-16T18:54:47Z) - The Diffusion Duality [24.39272541108744]
一様状態拡散過程は、基礎となるガウス拡散から自然に現れる。
カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットパープレキシティで自己回帰モデルを上回る。
本稿では, 連続から離散的な状態への連続蒸留を適応させる離散一致蒸留について述べる。
論文 参考訳(メタデータ) (2025-06-12T16:55:35Z) - Single-Step Consistent Diffusion Samplers [8.758218443992467]
既存のサンプリングアルゴリズムは通常、高品質なサンプルを作成するために多くの反復的なステップを必要とする。
単一ステップで高忠実度サンプルを生成するために設計された新しいサンプルクラスである,一貫した拡散サンプリングを導入している。
提案手法は,従来の拡散サンプリング装置で要求されるネットワーク評価の1%以下を用いて,高忠実度サンプルが得られることを示す。
論文 参考訳(メタデータ) (2025-02-11T14:25:52Z) - Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、9つのベンチマークにおける最先端の微調整アプローチと比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散
本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-20T14:22:12Z) - UDPM: Upsampling Diffusion Probabilistic Models [33.51145642279836]
拡散確率モデル(DDPM、Denoising Diffusion Probabilistic Models)は近年注目されている。
DDPMは逆プロセスを定義することによって複雑なデータ分布から高品質なサンプルを生成する。
生成逆数ネットワーク(GAN)とは異なり、拡散モデルの潜伏空間は解釈できない。
本研究では,デノナイズ拡散過程をUDPM(Upsampling Diffusion Probabilistic Model)に一般化することを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:25:14Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。