論文の概要: Understanding Training-free Diffusion Guidance: Mechanisms and Limitations
- arxiv url: http://arxiv.org/abs/2403.12404v1
- Date: Tue, 19 Mar 2024 03:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:31:57.836372
- Title: Understanding Training-free Diffusion Guidance: Mechanisms and Limitations
- Title(参考訳): 無訓練拡散誘導の理解--メカニズムと限界
- Authors: Yifei Shen, Xinyang Jiang, Yezhen Wang, Yifan Yang, Dongqi Han, Dongsheng Li,
- Abstract要約: クリーンな画像に事前訓練されたオフ・ザ・シェルフネットワークを用いて、トレーニング不要な拡散誘導を提案する研究がいくつかある。
我々は、最適化の観点から、トレーニングフリーガイダンスをサポートする理論的分析を提供する。
次に,その限界を克服するために,理論的理論的根拠と実証的証拠を伴って,一連の手法を導入する。
- 参考スコア(独自算出の注目度): 46.803127794547756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adding additional control to pretrained diffusion models has become an increasingly popular research area, with extensive applications in computer vision, reinforcement learning, and AI for science. Recently, several studies have proposed training-free diffusion guidance by using off-the-shelf networks pretrained on clean images. This approach enables zero-shot conditional generation for universal control formats, which appears to offer a free lunch in diffusion guidance. In this paper, we aim to develop a deeper understanding of the operational mechanisms and fundamental limitations of training-free guidance. We offer a theoretical analysis that supports training-free guidance from the perspective of optimization, distinguishing it from classifier-based (or classifier-free) guidance. To elucidate their drawbacks, we theoretically demonstrate that training-free methods are more susceptible to adversarial gradients and exhibit slower convergence rates compared to classifier guidance. We then introduce a collection of techniques designed to overcome the limitations, accompanied by theoretical rationale and empirical evidence. Our experiments in image and motion generation confirm the efficacy of these techniques.
- Abstract(参考訳): 事前訓練された拡散モデルにさらなる制御を加えることが、コンピュータビジョン、強化学習、科学のためのAIなど、ますます人気のある研究領域となっている。
近年,クリーンな画像に事前学習したオフ・ザ・シェルフネットワークを用いて,トレーニングフリーな拡散誘導法を提案する研究がいくつかある。
このアプローチは、拡散誘導の無料ランチを提供するように見えるユニバーサル制御フォーマットのゼロショット条件生成を可能にする。
本稿では,トレーニングフリーガイダンスの運用メカニズムと基本的制約について,より深く理解することを目的としている。
我々は,学習自由指導を最適化の観点から支援する理論解析を行い,それを分類者に基づく(または分類者なし)指導と区別する。
それらの欠点を解明するために, 学習自由法は, 対角勾配の影響を受けやすく, 分類器指導と比較して収束速度が遅いことを理論的に証明した。
次に,その限界を克服するために,理論的理論的根拠と実証的証拠を伴って,一連の手法を導入する。
画像と動きの生成実験により,これらの手法の有効性が確認された。
関連論文リスト
- An Overview of Diffusion Models: Applications, Guided Generation, Statistical Rates and Optimization [59.63880337156392]
拡散モデルはコンピュータビジョン、オーディオ、強化学習、計算生物学において大きな成功を収めた。
経験的成功にもかかわらず、拡散モデルの理論は非常に限定的である。
本稿では,前向きな理論や拡散モデルの手法を刺激する理論的露光について述べる。
論文 参考訳(メタデータ) (2024-04-11T14:07:25Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Manifold Preserving Guided Diffusion [121.97907811212123]
条件付き画像生成は、コスト、一般化可能性、タスク固有のトレーニングの必要性といった課題に直面している。
トレーニング不要な条件生成フレームワークであるManifold Preserving Guided Diffusion (MPGD)を提案する。
論文 参考訳(メタデータ) (2023-11-28T02:08:06Z) - Elucidating The Design Space of Classifier-Guided Diffusion Generation [17.704873767509557]
そこで本研究では,市販の分類器をトレーニング不要の手法で活用することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。
提案手法は大きな可能性を秘めており,テキスト・画像生成タスクに容易にスケールアップできる。
論文 参考訳(メタデータ) (2023-10-17T14:34:58Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - From Patches to Objects: Exploiting Spatial Reasoning for Better Visual
Representations [2.363388546004777]
本研究では,空間的推論に基づく新しい予備的事前学習手法を提案する。
本提案手法は,識別的自己管理手法の補助的タスクとして空間推論を導入することで,より柔軟なコントラスト学習の定式化を実現する。
論文 参考訳(メタデータ) (2023-05-21T07:46:46Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Towards Robust Explanations for Deep Neural Networks [5.735035463793008]
モデルの最大操作性に関する境界を導出するための統一理論フレームワークを開発する。
操作に対する堅牢性を高める3つの異なる技術を紹介します。
論文 参考訳(メタデータ) (2020-12-18T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。