論文の概要: Gradient-Free Classifier Guidance for Diffusion Model Sampling
- arxiv url: http://arxiv.org/abs/2411.15393v1
- Date: Sat, 23 Nov 2024 00:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:44.133487
- Title: Gradient-Free Classifier Guidance for Diffusion Model Sampling
- Title(参考訳): 拡散モデルサンプリングのための勾配自由分類器誘導
- Authors: Rahul Shenoy, Zhihong Pan, Kaushik Balakrishnan, Qisen Cheng, Yongmoon Jeon, Heejune Yang, Jaewon Kim,
- Abstract要約: Gradient-free Guidance (GFCG) 法はクラス予測精度を一貫して改善する。
ImageNet 512$times$512では、記録的な$FD_textDINOv2$23.09を達成すると同時に、ATG (90.2%) と比較して高い分類精度 (94.3%) を達成する。
- 参考スコア(独自算出の注目度): 4.450496470631169
- License:
- Abstract: Image generation using diffusion models have demonstrated outstanding learning capabilities, effectively capturing the full distribution of the training dataset. They are known to generate wide variations in sampled images, albeit with a trade-off in image fidelity. Guided sampling methods, such as classifier guidance (CG) and classifier-free guidance (CFG), focus sampling in well-learned high-probability regions to generate images of high fidelity, but each has its limitations. CG is computationally expensive due to the use of back-propagation for classifier gradient descent, while CFG, being gradient-free, is more efficient but compromises class label alignment compared to CG. In this work, we propose an efficient guidance method that fully utilizes a pre-trained classifier without using gradient descent. By using the classifier solely in inference mode, a time-adaptive reference class label and corresponding guidance scale are determined at each time step for guided sampling. Experiments on both class-conditioned and text-to-image generation diffusion models demonstrate that the proposed Gradient-free Classifier Guidance (GFCG) method consistently improves class prediction accuracy. We also show GFCG to be complementary to other guided sampling methods like CFG. When combined with the state-of-the-art Autoguidance (ATG), without additional computational overhead, it enhances image fidelity while preserving diversity. For ImageNet 512$\times$512, we achieve a record $\text{FD}_{\text{DINOv2}}$ of 23.09, while simultaneously attaining a higher classification Precision (94.3%) compared to ATG (90.2%)
- Abstract(参考訳): 拡散モデルを用いた画像生成は優れた学習能力を示し、トレーニングデータセットの完全な分布を効果的に捉えている。
画像の忠実さのトレードオフはあるものの、サンプル画像の幅広いバリエーションを生成することが知られている。
分類器ガイダンス (CG) や分類器フリーガイダンス (CFG) のようなガイド付きサンプリング手法では、高い忠実度の画像を生成するために、よく学習された高確率領域の焦点サンプリングを行うが、それぞれに制限がある。
CGは分類器勾配降下にバックプロパゲーションを用いるため計算コストがかかるが、CFGは勾配を含まないためより効率的であるが、CGと比較してクラスラベルアライメントを損なう。
本研究では,勾配勾配を使わずに,事前学習した分類器を完全に活用する効率的な指導法を提案する。
推論モードのみの分類器を用いて、ガイドサンプリングの各タイムステップにおいて、タイムアダプティブ参照クラスラベルおよび対応するガイダンススケールを決定する。
クラス条件付きおよびテキスト・ツー・イメージ生成拡散モデルを用いた実験により,提案手法はクラス予測精度を常に向上することを示した。
また、GFCGはCFGのような他のガイド付きサンプリング手法と相補的であることを示した。
最先端のAutoguidance(ATG)と組み合わせることで、さらなる計算オーバーヘッドを伴わずに、多様性を保ちながら画像の忠実度を高めることができる。
ImageNet 512$\times$512では、記録的な$\text{FD}_{\text{DINOv2}}$23.09を達成すると同時に、ATG (90.2%)と比較して高い分類精度 (94.3%) を達成する。
関連論文リスト
- Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment [31.402736873762418]
言語モデルアライメント手法により,高機能な誘導不要なAR視覚生成を容易にするためのテキストコンディションコントラストアライメント(CCA)を提案する。
実験の結果,CCAは1つのエポック微調整で全試験モデルの誘導不要性能を著しく向上させることができることがわかった。
このことは,言語的アライメントと視覚的アライメントの強い関係を実験的に確認する。
論文 参考訳(メタデータ) (2024-10-12T03:31:25Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Towards Accurate Guided Diffusion Sampling through Symplectic Adjoint
Method [110.9458914721516]
本研究では,2つの段階の勾配誘導を算出したSymphlectic Adjoint Guidance (SAG)を提案する。
SAGは、ガイド画像およびビデオ生成タスクのベースラインと比較して画質の高い画像を生成する。
論文 参考訳(メタデータ) (2023-12-19T10:30:31Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Accelerating Diffusion Sampling with Classifier-based Feature
Distillation [20.704675568555082]
N/2$-step の教師サンプルとN/2$-step の生徒サンプルの出力画像を段階的に整列させることにより, 高速サンプリングのためのプログレッシブ蒸留を提案する。
教師の特徴分布を,データセットに依存しない分類器を用いて抽出し,性能向上を図る。
CIFAR-10実験は, 高品質で高速なサンプリングを実現する上で, 提案手法の優位性を示した。
論文 参考訳(メタデータ) (2022-11-22T06:21:31Z) - Optimizing Hierarchical Image VAEs for Sample Quality [0.0]
階層的変動オートエンコーダ (VAE) は, 画像モデリングタスクにおいて, 高精度な密度推定を実現している。
これは、画像の非知覚的な詳細を圧縮する過度に強調する学習表現によるものである。
我々は,各潜伏群におけるインフォメーション量を制御するKL重み付け戦略を導入し,学習目標のシャープネスを低減するためにガウス出力層を用いる。
論文 参考訳(メタデータ) (2022-10-18T23:10:58Z) - Classifier-Free Diffusion Guidance [17.355749359987648]
誘導法は条件付き拡散モデルにおけるモードカバレッジとサンプル忠実度をトレードオフする手法として最近導入された。
このような分類器を使わずに、純粋な生成モデルによってガイダンスを実際に実行できることが示される。
結果の条件と非条件のスコアの見積もりを組み合わせることで、サンプルの品質と多様性のトレードオフを達成します。
論文 参考訳(メタデータ) (2022-07-26T01:42:07Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Diverse Image Generation via Self-Conditioned GANs [56.91974064348137]
手動でアノテートされたクラスラベルを使わずに、クラス条件付きGANモデルを訓練する。
代わりに、我々のモデルは、識別器の特徴空間におけるクラスタリングから自動的に派生したラベルに条件付きである。
我々のクラスタリングステップは、自動的に多様なモードを発見し、それらをカバーするためにジェネレータを明示的に必要とします。
論文 参考訳(メタデータ) (2020-06-18T17:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。