論文の概要: E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.21044v2
- Date: Mon, 10 Mar 2025 02:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.870777
- Title: E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models
- Title(参考訳): E2ED^2:Direct Mapping from noise to data for Enhanced Diffusion Models
- Authors: Zhiyu Tan, WenXu Qian, Hesen Chen, Mengping Yang, Lei Chen, Hao Li,
- Abstract要約: 拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
- 参考スコア(独自算出の注目度): 15.270657838960114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have established themselves as the de facto primary paradigm in visual generative modeling, revolutionizing the field through remarkable success across various diverse applications ranging from high-quality image synthesis to temporal aware video generation. Despite these advancements, three fundamental limitations persist, including 1) discrepancy between training and inference processes, 2) progressive information leakage throughout the noise corruption procedures, and 3) inherent constraints preventing effective integration of modern optimization criteria like perceptual and adversarial loss. To mitigate these critical challenges, we in this paper present a novel end-to-end learning paradigm that establishes direct optimization from the final generated samples to initial noises. Our proposed End-to-End Differentiable Diffusion, dubbed E2ED^2, introduces several key improvements: it eliminates the sequential training-sampling mismatch and intermediate information leakage via conceptualizing training as a direct transformation from isotropic Gaussian noise to the target data distribution. Additionally, such training framework enables seamless incorporation of adversarial and perceptual losses into the core optimization objective. Comprehensive evaluation across standard benchmarks including COCO30K and HW30K reveals that our method achieves substantial performance gains in terms of Fr\'echet Inception Distance (FID) and CLIP score, even with fewer sampling steps (less than 4). Our findings highlight that the end-to-end mechanism might pave the way for more robust and efficient solutions, \emph{i.e.,} combining diffusion stability with GAN-like discriminative optimization in an end-to-end manner.
- Abstract(参考訳): 拡散モデルは視覚生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立され、高品質な画像合成から時間的意識のビデオ生成に至るまで、様々な様々な応用において顕著な成功を収めた。
これらの進歩にもかかわらず、3つの基本的な制限が持続する。
1)トレーニングと推論プロセスの相違
2 騒音汚職手続の進行情報漏えい及び
3) 本来の制約は, 知覚障害や敵意障害などの近代的最適化基準の効果的な統合を妨げている。
本稿では、これらの重要な課題を軽減するために、最終生成サンプルから初期雑音への直接最適化を確立する新しいエンドツーエンド学習パラダイムを提案する。
E2ED^2(End-to-End Differentiable Diffusion)と呼ばれる本提案では,等方的ガウス雑音から対象データ分布への直接変換としてトレーニングを概念化することにより,逐次的なトレーニングサンプリングミスマッチと中間情報漏洩を排除した。
さらに、このようなトレーニングフレームワークは、コア最適化目標に対角的および知覚的損失をシームレスに組み込むことができる。
COCO30K や HW30K を含む標準ベンチマークの総合評価の結果,Fr'echet Inception Distance (FID) と CLIP のスコアにおいて,サンプリングステップが 4 未満であっても,本手法は大幅な性能向上を実現していることがわかった。
本研究は, 拡散安定性とGAN類似の識別的最適化を両立させることにより, より堅牢で効率的な解法であるemph{i.e。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。
SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。
SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-18T16:57:41Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Iterative Ensemble Training with Anti-Gradient Control for Mitigating Memorization in Diffusion Models [20.550324116099357]
拡散モデルは、新規で高品質なサンプルを生成できることで知られている。
最近のメモリ緩和手法は、クロスモーダル生成タスクにおけるテキストモダリティ問題にのみ焦点をあてるか、あるいはデータ拡張戦略を利用するかのどちらかである。
本稿では,視覚的モダリティの観点からの拡散モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T02:19:30Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Imagine Flash: Accelerating Emu Diffusion Models with Backward Distillation [18.371344440413353]
本研究では,1段階から3段階の高忠実度,多種多様な試料生成を可能にする新しい蒸留フレームワークを提案する。
提案手法は, (i) 学習者自身の後方軌跡を校正することで, トレーニングと推論の相違を緩和する後方蒸留, (ii) 知識伝達を動的に適応させるシフト型再構成損失, (iii) サンプル品質を高める推論時間技術であるノイズ補正の3つの重要な要素から構成される。
論文 参考訳(メタデータ) (2024-05-08T17:15:18Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - Two-Stage Triplet Loss Training with Curriculum Augmentation for
Audio-Visual Retrieval [3.164991885881342]
クロス検索モデルは堅牢な埋め込み空間を学習する。
この問題に対処するために,カリキュラム学習に根ざした新しいアプローチを導入する。
本稿では,モデルの学習過程をセミハードからハードトリップにガイドする2段階の学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T12:35:54Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。