論文の概要: E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.21044v2
- Date: Mon, 10 Mar 2025 02:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:38.801561
- Title: E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models
- Title(参考訳): E2ED^2:Direct Mapping from noise to data for Enhanced Diffusion Models
- Authors: Zhiyu Tan, WenXu Qian, Hesen Chen, Mengping Yang, Lei Chen, Hao Li,
- Abstract要約: 拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
- 参考スコア(独自算出の注目度): 15.270657838960114
- License:
- Abstract: Diffusion models have established themselves as the de facto primary paradigm in visual generative modeling, revolutionizing the field through remarkable success across various diverse applications ranging from high-quality image synthesis to temporal aware video generation. Despite these advancements, three fundamental limitations persist, including 1) discrepancy between training and inference processes, 2) progressive information leakage throughout the noise corruption procedures, and 3) inherent constraints preventing effective integration of modern optimization criteria like perceptual and adversarial loss. To mitigate these critical challenges, we in this paper present a novel end-to-end learning paradigm that establishes direct optimization from the final generated samples to initial noises. Our proposed End-to-End Differentiable Diffusion, dubbed E2ED^2, introduces several key improvements: it eliminates the sequential training-sampling mismatch and intermediate information leakage via conceptualizing training as a direct transformation from isotropic Gaussian noise to the target data distribution. Additionally, such training framework enables seamless incorporation of adversarial and perceptual losses into the core optimization objective. Comprehensive evaluation across standard benchmarks including COCO30K and HW30K reveals that our method achieves substantial performance gains in terms of Fr\'echet Inception Distance (FID) and CLIP score, even with fewer sampling steps (less than 4). Our findings highlight that the end-to-end mechanism might pave the way for more robust and efficient solutions, \emph{i.e.,} combining diffusion stability with GAN-like discriminative optimization in an end-to-end manner.
- Abstract(参考訳): 拡散モデルは視覚生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立され、高品質な画像合成から時間的意識のビデオ生成に至るまで、様々な様々な応用において顕著な成功を収めた。
これらの進歩にもかかわらず、3つの基本的な制限が持続する。
1)トレーニングと推論プロセスの相違
2 騒音汚職手続の進行情報漏えい及び
3) 本来の制約は, 知覚障害や敵意障害などの近代的最適化基準の効果的な統合を妨げている。
本稿では、これらの重要な課題を軽減するために、最終生成サンプルから初期雑音への直接最適化を確立する新しいエンドツーエンド学習パラダイムを提案する。
E2ED^2(End-to-End Differentiable Diffusion)と呼ばれる本提案では,等方的ガウス雑音から対象データ分布への直接変換としてトレーニングを概念化することにより,逐次的なトレーニングサンプリングミスマッチと中間情報漏洩を排除した。
さらに、このようなトレーニングフレームワークは、コア最適化目標に対角的および知覚的損失をシームレスに組み込むことができる。
COCO30K や HW30K を含む標準ベンチマークの総合評価の結果,Fr'echet Inception Distance (FID) と CLIP のスコアにおいて,サンプリングステップが 4 未満であっても,本手法は大幅な性能向上を実現していることがわかった。
本研究は, 拡散安定性とGAN類似の識別的最適化を両立させることにより, より堅牢で効率的な解法であるemph{i.e。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models [20.550324116099357]
拡散モデルは、新規で高品質なサンプルを生成できることで知られている。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T02:19:30Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Efficient Text-driven Motion Generation via Latent Consistency Training [21.348658259929053]
非線形逆拡散軌道を解くための動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
論文 参考訳(メタデータ) (2024-05-05T02:11:57Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。