論文の概要: End-to-End Diffusion Latent Optimization Improves Classifier Guidance
- arxiv url: http://arxiv.org/abs/2303.13703v2
- Date: Wed, 31 May 2023 19:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:54:35.779396
- Title: End-to-End Diffusion Latent Optimization Improves Classifier Guidance
- Title(参考訳): End-to-End Diffusion Latent Optimization による分類指導の改善
- Authors: Bram Wallace, Akash Gokul, Stefano Ermon, Nikhil Naik
- Abstract要約: 拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
- 参考スコア(独自算出の注目度): 81.27364542975235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier guidance -- using the gradients of an image classifier to steer
the generations of a diffusion model -- has the potential to dramatically
expand the creative control over image generation and editing. However,
currently classifier guidance requires either training new noise-aware models
to obtain accurate gradients or using a one-step denoising approximation of the
final generation, which leads to misaligned gradients and sub-optimal control.
We highlight this approximation's shortcomings and propose a novel guidance
method: Direct Optimization of Diffusion Latents (DOODL), which enables
plug-and-play guidance by optimizing diffusion latents w.r.t. the gradients of
a pre-trained classifier on the true generated pixels, using an invertible
diffusion process to achieve memory-efficient backpropagation. Showcasing the
potential of more precise guidance, DOODL outperforms one-step classifier
guidance on computational and human evaluation metrics across different forms
of guidance: using CLIP guidance to improve generations of complex prompts from
DrawBench, using fine-grained visual classifiers to expand the vocabulary of
Stable Diffusion, enabling image-conditioned generation with a CLIP visual
encoder, and improving image aesthetics using an aesthetic scoring network.
Code at https://github.com/salesforce/DOODL.
- Abstract(参考訳): 画像分類器の勾配を利用して拡散モデルの世代を操縦する分類器ガイダンスは、画像生成と編集に対する創造的なコントロールを劇的に拡大する可能性がある。
しかし、現在分類器指導は、正確な勾配を得るために新しいノイズ認識モデルを訓練するか、最終世代の1ステップの近似を用いて、不整合勾配と準最適制御をもたらす。
我々は,この近似の欠点を強調し,新しいガイダンス手法を提案する。 拡散遅延の直接最適化(DOODL)は,メモリ効率の高いバックプロパゲーションを実現するために,非可逆拡散プロセスを用いて,事前学習された分類器の真の画素への勾配を最適化することにより,プラグアンドプレイのガイダンスを可能にする。
より正確なガイダンスの可能性を示すために、DOODLは、計算と人的評価のメトリクスに関する一段階の分類器ガイダンスを、さまざまな形式のガイダンスで上回り、CLIPガイダンスを使用して、DrawBenchからの複雑なプロンプトの世代を改良し、きめ細かい視覚分類器を使用して、安定拡散の語彙を拡大し、CLIPビジュアルエンコーダで画像条件付き生成を可能にし、美的評価ネットワークを使用して画像美学を改善する。
コード: https://github.com/salesforce/doodl。
関連論文リスト
- Gradient-Free Classifier Guidance for Diffusion Model Sampling [4.450496470631169]
Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
論文 参考訳(メタデータ) (2024-11-23T00:22:21Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Edge-Efficient Deep Learning Models for Automatic Modulation Classification: A Performance Analysis [0.7428236410246183]
無線信号の自動変調分類(AMC)のための最適化畳み込みニューラルネットワーク(CNN)について検討した。
本稿では,これらの手法を組み合わせて最適化モデルを提案する。
実験結果から,提案手法と組み合わせ最適化手法は,複雑度が著しく低いモデルの開発に極めて有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-11T06:08:23Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Elucidating The Design Space of Classifier-Guided Diffusion Generation [17.704873767509557]
そこで本研究では,市販の分類器をトレーニング不要の手法で活用することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。
提案手法は大きな可能性を秘めており,テキスト・画像生成タスクに容易にスケールアップできる。
論文 参考訳(メタデータ) (2023-10-17T14:34:58Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。