論文の概要: Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.20240v1
- Date: Wed, 26 Mar 2025 05:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:35.309163
- Title: Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models
- Title(参考訳): 未条件優先事項! 微調整拡散モデルの条件付き生成の改善
- Authors: Prin Phunyaphibarn, Phillip Y. Lee, Jaihoon Kim, Minhyuk Sung,
- Abstract要約: CFGの非条件雑音をベースモデルで予測したノイズに置き換えることで条件生成を大幅に改善できることを示す。
我々は,画像生成と映像生成の両面において,CFGに基づく条件付きモデルを用いて,我々の主張を実験的に検証した。
- 参考スコア(独自算出の注目度): 10.542645300983878
- License:
- Abstract: Classifier-Free Guidance (CFG) is a fundamental technique in training conditional diffusion models. The common practice for CFG-based training is to use a single network to learn both conditional and unconditional noise prediction, with a small dropout rate for conditioning. However, we observe that the joint learning of unconditional noise with limited bandwidth in training results in poor priors for the unconditional case. More importantly, these poor unconditional noise predictions become a serious reason for degrading the quality of conditional generation. Inspired by the fact that most CFG-based conditional models are trained by fine-tuning a base model with better unconditional generation, we first show that simply replacing the unconditional noise in CFG with that predicted by the base model can significantly improve conditional generation. Furthermore, we show that a diffusion model other than the one the fine-tuned model was trained on can be used for unconditional noise replacement. We experimentally verify our claim with a range of CFG-based conditional models for both image and video generation, including Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter, and InstructPix2Pix.
- Abstract(参考訳): CFG (Classifier-Free Guidance) は条件拡散モデルの訓練における基礎的手法である。
CFGベースのトレーニングの一般的な実践は、条件付きと非条件付きの両方のノイズ予測を単一のネットワークで学習することである。
しかし,未条件の場合,学習帯域が限られている非条件雑音の連成学習により,未条件の場合の事前学習が不十分になることがわかった。
さらに重要なことは、これらの劣悪な非条件雑音予測が条件生成の品質を劣化させる深刻な理由となっていることである。
CFGをベースとした条件付きモデルの多くは、より優れた条件付き生成をベースモデルに微調整することで訓練されているという事実に着想を得て、まず、CFGの非条件付きノイズをベースモデルによって予測されるノイズに置き換えることによって、条件付き生成を大幅に改善できることを示す。
さらに, 微調整モデル以外の拡散モデルを用いて非条件雑音の代替を行うことができることを示す。
我々は、Zero-1-to-3、Versatile Diffusion、DiT、DynamiCrafter、InstructPix2Pixなど、画像およびビデオ生成用のCFGベースの条件モデルを用いて、我々の主張を実験的に検証した。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - No Training, No Problem: Rethinking Classifier-Free Guidance for Diffusion Models [25.301443993960277]
我々はCFGの中核となる原則を再考し、新しい方法である独立条件ガイダンス(ICG)を導入する。
ICGは特別な訓練手順を必要とせずにCFGの利点を提供する。
提案手法は条件拡散モデルの学習過程を合理化し,任意の事前学習条件モデル上での推論にも適用可能である。
論文 参考訳(メタデータ) (2024-07-02T22:04:00Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Zero-Shot Conditioning of Score-Based Diffusion Models by Neuro-Symbolic Constraints [1.1826485120701153]
本研究では,事前学習した無条件スコアベース生成モデルを用いて,任意の論理的制約の下で条件分布からサンプルを抽出する手法を提案する。
ユーザ定義制約の非正規化分布条件から標本化するために,学習したスコアの操作方法を示す。
ソフト論理制約を符号化するための柔軟で数値的に安定なニューロシンボリック・フレームワークを定義する。
論文 参考訳(メタデータ) (2023-08-31T08:25:47Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Visual Chain-of-Thought Diffusion Models [15.547439887203613]
2段階サンプリング手法を用いて条件付きモデルと条件なしモデルとのギャップを埋めることを提案する。
これにより、条件拡散モデルの非条件生成タスクのパワーを活用し、標準の非条件生成と比較してFIDを25-50%改善することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:53:06Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - Collapse by Conditioning: Training Class-conditional GANs with Limited
Data [109.30895503994687]
非条件学習を活用することにより、観測モード崩壊を効果的に防止する条件付きGAN(cGAN)のトレーニング戦略を提案する。
我々のトレーニング戦略は、無条件のGANから始まり、徐々に条件情報をジェネレータと目的関数に注入する。
安定したトレーニングだけでなく,高品質な画像を生成するために,限られたデータでcGANを訓練する手法を提案する。
論文 参考訳(メタデータ) (2022-01-17T18:59:23Z) - D2C: Diffusion-Denoising Models for Few-shot Conditional Generation [109.68228014811443]
コントラスト表現を用いた拡散復号モデル(D2C)について述べる。
D2Cは、学習した拡散に基づく遅延表現を用いて、表現品質を改善するために、生成と対照的な自己教師付き学習を改善する。
条件付き画像操作では、D2C世代はStyleGAN2世代よりも2桁早く生成でき、二重盲検でヒト評価者の50%から60%が好んでいる。
論文 参考訳(メタデータ) (2021-06-12T16:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。