論文の概要: Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
- arxiv url: http://arxiv.org/abs/2505.20755v1
- Date: Tue, 27 May 2025 05:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.436921
- Title: Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
- Title(参考訳): ユニインストラクション:統一拡散拡散インストラクションによる1段階拡散モデル
- Authors: Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun,
- Abstract要約: Uni-Instructは、$f$-divergenceファミリーの拡散展開理論によって動機付けられている。
CIFAR10 生成ベンチマークでは、Uni-Instruct は無条件生成のための textbfemph1.46 のレコード破りの Frechet Inception Distance (FID) 値を達成する。
ImageNet-$64times 64$ Generationベンチマークでは、Uni-Instruct が textbfemph1.02 の SoTA 1ステップ生成 FID を新たに達成した。
- 参考スコア(独自算出の注目度): 16.855296683335308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we unify more than 10 existing one-step diffusion distillation approaches, such as Diff-Instruct, DMD, SIM, SiD, $f$-distill, etc, inside a theory-driven framework which we name the \textbf{\emph{Uni-Instruct}}. Uni-Instruct is motivated by our proposed diffusion expansion theory of the $f$-divergence family. Then we introduce key theories that overcome the intractability issue of the original expanded $f$-divergence, resulting in an equivalent yet tractable loss that effectively trains one-step diffusion models by minimizing the expanded $f$-divergence family. The novel unification introduced by Uni-Instruct not only offers new theoretical contributions that help understand existing approaches from a high-level perspective but also leads to state-of-the-art one-step diffusion generation performances. On the CIFAR10 generation benchmark, Uni-Instruct achieves record-breaking Frechet Inception Distance (FID) values of \textbf{\emph{1.46}} for unconditional generation and \textbf{\emph{1.38}} for conditional generation. On the ImageNet-$64\times 64$ generation benchmark, Uni-Instruct achieves a new SoTA one-step generation FID of \textbf{\emph{1.02}}, which outperforms its 79-step teacher diffusion with a significant improvement margin of 1.33 (1.02 vs 2.35). We also apply Uni-Instruct on broader tasks like text-to-3D generation. For text-to-3D generation, Uni-Instruct gives decent results, which slightly outperforms previous methods, such as SDS and VSD, in terms of both generation quality and diversity. Both the solid theoretical and empirical contributions of Uni-Instruct will potentially help future studies on one-step diffusion distillation and knowledge transferring of diffusion models.
- Abstract(参考訳): 本稿では,Diff-Instruct, DMD, SIM, SiD, $f$-distill など,既存の10以上の1段階拡散蒸留手法を理論駆動型フレームワークに統一し,これを「textbf{\emph{Uni-Instruct}}」と呼ぶ。
Uni-Instructは、$f$-divergenceファミリーの拡散展開理論によって動機付けられている。
次に、拡張された$f$-divergenceの難易度問題を克服する鍵理論を導入し、拡張された$f$-divergenceファミリーを最小化することにより、ワンステップ拡散モデルを効果的に訓練する、等価でトラクタブルな損失をもたらす。
Uni-Instructによって導入された新しい統一は、既存のアプローチを高レベルの観点から理解するのに役立つ新しい理論的貢献を提供するだけでなく、最先端の一段階拡散生成性能をもたらす。
CIFAR10 生成ベンチマークでは、Uni-Instruct は条件生成のための \textbf{\emph{1.46}} と条件生成のための \textbf{\emph{1.38}} のレコード破りの Frechet Inception Distance (FID) 値を達成する。
ImageNet-$64\times 64$ Generationベンチマークでは、Uni-Instructが新しいSoTAワンステップ生成FIDであるtextbf{\emph{1.02}}を達成している。
また、テキストから3D生成など幅広いタスクにUni-Instructを適用します。
テキストから3D生成では、Uni-Instructは、SDSやVSDといった従来の手法よりも、生成品質と多様性の両方で若干優れています。
Uni-Instructの堅固な理論的および実証的な貢献は、将来の1段階の拡散蒸留と拡散モデルの知識伝達の研究に役立つ可能性がある。
関連論文リスト
- Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models [8.150431616220772]
Uni$textbfF2$aceは、顔のきめ細かな理解と生成に特化した最初のUMMである。
一般的に、Uni$textbfF2$aceを自己構築された特別なデータセットでトレーニングします。
Uni$textbfF2$ace-130Kの実験は、Uni$textbfF2$aceが既存のUMMや生成モデルより優れていることを示した。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Fast Direct: Query-Efficient Online Black-box Guidance for Diffusion-model Target Generation [27.773614349764234]
既存の誘導拡散モデルは、事前にコンパイルされたデータセットでガイダンスモデルをトレーニングするか、客観的関数を微分可能にする必要がある。
本研究では,クエリ効率の高いオンラインブラックボックスターゲット生成のための,新規でシンプルなアルゴリズムである$textbfFast Direct$を提案する。
我々のFast Directはデータ多様体上に擬似ターゲットを構築し、拡散モデルのノイズシーケンスを普遍的な方向で更新する。
論文 参考訳(メタデータ) (2025-02-02T17:21:10Z) - Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct* (DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するための画像データフリーアプローチである。
我々は、人間のフィードバックを用いたオンライン強化学習として、人間の好みのアライメントを定めている。
正規化にKLの発散に依存する従来のRLHFアプローチとは異なり、新しいスコアベース発散正規化を導入する。
論文 参考訳(メタデータ) (2024-10-28T10:26:19Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。