論文の概要: Efficient Distillation of Classifier-Free Guidance using Adapters
- arxiv url: http://arxiv.org/abs/2503.07274v1
- Date: Mon, 10 Mar 2025 12:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:58.596712
- Title: Efficient Distillation of Classifier-Free Guidance using Adapters
- Title(参考訳): 適応器を用いた分類器フリーガイダンスの効率的な蒸留
- Authors: Cristian Perez Jensen, Seyedmorteza Sadat,
- Abstract要約: アダプタ誘導蒸留(AGD)は、CFGを単一の前方通過でシミュレートする新しい手法である。
AGDは基本モデルを凍結させ、最小限の追加パラメータを訓練するのみである。
我々はAGDがCFGに匹敵するあるいは優れたFIDを複数のアーキテクチャで達成していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While classifier-free guidance (CFG) is essential for conditional diffusion models, it doubles the number of neural function evaluations (NFEs) per inference step. To mitigate this inefficiency, we introduce adapter guidance distillation (AGD), a novel approach that simulates CFG in a single forward pass. AGD leverages lightweight adapters to approximate CFG, effectively doubling the sampling speed while maintaining or even improving sample quality. Unlike prior guidance distillation methods that tune the entire model, AGD keeps the base model frozen and only trains minimal additional parameters ($\sim$2%) to significantly reduce the resource requirement of the distillation phase. Additionally, this approach preserves the original model weights and enables the adapters to be seamlessly combined with other checkpoints derived from the same base model. We also address a key mismatch between training and inference in existing guidance distillation methods by training on CFG-guided trajectories instead of standard diffusion trajectories. Through extensive experiments, we show that AGD achieves comparable or superior FID to CFG across multiple architectures with only half the NFEs. Notably, our method enables the distillation of large models ($\sim$2.6B parameters) on a single consumer GPU with 24 GB of VRAM, making it more accessible than previous approaches that require multiple high-end GPUs. We will publicly release the implementation of our method.
- Abstract(参考訳): 条件付き拡散モデルには分類器フリーガイダンス(CFG)が不可欠であるが、推論ステップあたりの神経機能評価(NFE)の数を2倍にしている。
この非効率性を軽減するために, CFGを単一前方通過で模擬する新しいアプローチであるアダプタ誘導蒸留(AGD)を導入する。
AGDは軽量なアダプタを利用してCFGを近似し、サンプル品質を維持したり改善したりしながらサンプリング速度を効果的に倍増させる。
モデル全体を調整した以前のガイダンス蒸留法とは異なり、AGDは基本モデルを凍結させ、蒸留フェーズのリソース要求を大幅に低減するために追加パラメータ(\sim$2%)を最小限に訓練するのみである。
さらに、本手法は元のモデルの重みを保ち、アダプタを同じベースモデルから派生した他のチェックポイントとシームレスに結合できるようにする。
また,標準拡散軌跡ではなくCFG誘導軌跡を訓練することで,既存の誘導蒸留法におけるトレーニングと推論のキーミスマッチに対処する。
広範にわたる実験により,AGD は NFE の半分 しか持たない複数のアーキテクチャにおいて,CFG と同等あるいは優れた FID を達成可能であることを示す。
特に,24GBのVRAMを持つ1台のコンシューマGPU上での大規模モデルの蒸留($2.6Bパラメータ)が可能であり,複数のハイエンドGPUを必要とする従来のアプローチよりも利用しやすい。
私たちはメソッドの実装を公開します。
関連論文リスト
- Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Visual Generation Without Guidance [28.029707495420475]
我々はサンプリングガイドのないビジュアルモデルを構築することを提案する。
得られたアルゴリズムである Guidance-Free Training (GFT) は、CFGの性能と一致し、サンプリングを1つのモデルに減らし、コストを半減する。
論文 参考訳(メタデータ) (2025-01-26T06:48:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。
最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。
提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文 参考訳(メタデータ) (2024-08-01T17:59:59Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Adaptive Guidance: Training-free Acceleration of Conditional Diffusion
Models [44.58960475893552]
適応誘導 (AG) は計算自由誘導 (CFG) の効率的な変種である
AGはCFGの画質を25%低下させながら保存する。
LinearAG" はベースラインモデルから逸脱するコストでさらに安価な推論を提供する。
論文 参考訳(メタデータ) (2023-12-19T17:08:48Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。