論文の概要: How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.08351v1
- Date: Tue, 10 Jun 2025 02:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.07046
- Title: How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models
- Title(参考訳): 指導に要する時間: 分類自由誘導テキスト・バイジョン拡散モデルにおける適応誘導の再検討
- Authors: Huixuan Zhang, Junzhe Zhang, Xiaojun Wan,
- Abstract要約: 我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
- 参考スコア(独自算出の注目度): 57.42800112251644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the rapid development of text-to-vision generation diffusion models, classifier-free guidance has emerged as the most prevalent method for conditioning. However, this approach inherently requires twice as many steps for model forwarding compared to unconditional generation, resulting in significantly higher costs. While previous study has introduced the concept of adaptive guidance, it lacks solid analysis and empirical results, making previous method unable to be applied to general diffusion models. In this work, we present another perspective of applying adaptive guidance and propose Step AG, which is a simple, universally applicable adaptive guidance strategy. Our evaluations focus on both image quality and image-text alignment. whose results indicate that restricting classifier-free guidance to the first several denoising steps is sufficient for generating high-quality, well-conditioned images, achieving an average speedup of 20% to 30%. Such improvement is consistent across different settings such as inference steps, and various models including video generation models, highlighting the superiority of our method.
- Abstract(参考訳): テキスト・ツー・ビジョン・ジェネレーション・ディフュージョン・モデルが急速に発展し, 条件付けの最も一般的な手法として, 分類器フリーガイダンスが登場した。
しかし、このアプローチは本質的に、非条件生成に比べてモデルフォワードの2倍のステップを必要とし、結果としてコストが大幅に高くなる。
先行研究は適応誘導の概念を導入しているが, 解析や実験結果が乏しく, 一般拡散モデルには適用できない。
本稿では、適応的ガイダンスを適用するという別の視点を提示し、シンプルで普遍的な適応的ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
その結果は、分類器フリーガイダンスを最初の数ステップに制限することは、高品質で良質な画像を生成するのに十分であり、平均20%から30%のスピードアップを達成することを示唆している。
このような改善は、推論ステップやビデオ生成モデルを含む様々なモデルなど、さまざまな設定で一致しており、本手法の優位性を強調している。
関連論文リスト
- Domain Guidance: A Simple Transfer Approach for a Pre-trained Diffusion Model [62.11981915549919]
ドメインガイダンス(Domain Guidance)は、トレーニング済みの知識を活用して、サンプリングプロセスを対象のドメインに誘導する移行アプローチである。
FIDは19.6%改善し、FD$_textDINOv2$は23.4%改善した。
論文 参考訳(メタデータ) (2025-04-02T09:07:55Z) - Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models [0.0]
本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-02T15:43:13Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - Elucidating The Design Space of Classifier-Guided Diffusion Generation [17.704873767509557]
そこで本研究では,市販の分類器をトレーニング不要の手法で活用することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。
提案手法は大きな可能性を秘めており,テキスト・画像生成タスクに容易にスケールアップできる。
論文 参考訳(メタデータ) (2023-10-17T14:34:58Z) - Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T13:50:58Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。