論文の概要: Navigating with Annealing Guidance Scale in Diffusion Space
- arxiv url: http://arxiv.org/abs/2506.24108v1
- Date: Mon, 30 Jun 2025 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.184542
- Title: Navigating with Annealing Guidance Scale in Diffusion Space
- Title(参考訳): 拡散空間におけるAnnealing Guidance Scaleによるナビゲーション
- Authors: Shai Yehezkel, Omer Dahary, Andrey Voynov, Daniel Cohen-Or,
- Abstract要約: 誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を与える。
本研究では,時間とともに指導尺度を動的に調整するアニーリング誘導スケジューラを提案する。
実験結果から,指導スケジューラは画像品質とテキストプロンプトとの整合性を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 50.53780111249146
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Denoising diffusion models excel at generating high-quality images conditioned on text prompts, yet their effectiveness heavily relies on careful guidance during the sampling process. Classifier-Free Guidance (CFG) provides a widely used mechanism for steering generation by setting the guidance scale, which balances image quality and prompt alignment. However, the choice of the guidance scale has a critical impact on the convergence toward a visually appealing and prompt-adherent image. In this work, we propose an annealing guidance scheduler which dynamically adjusts the guidance scale over time based on the conditional noisy signal. By learning a scheduling policy, our method addresses the temperamental behavior of CFG. Empirical results demonstrate that our guidance scheduler significantly enhances image quality and alignment with the text prompt, advancing the performance of text-to-image generation. Notably, our novel scheduler requires no additional activations or memory consumption, and can seamlessly replace the common classifier-free guidance, offering an improved trade-off between prompt alignment and quality.
- Abstract(参考訳): 拡散モデルのノイズ化は、テキストプロンプトに条件付けされた高品質な画像を生成するのに優れるが、その効果はサンプリングプロセス中に注意深いガイダンスに大きく依存する。
Classifier-Free Guidance (CFG) は、画像の品質と迅速なアライメントのバランスを保ったガイダンス尺度を設定することで、画像生成のための広く使われているメカニズムを提供する。
しかし、誘導尺度の選択は、視覚的に魅力的で即応的なイメージへの収束に重大な影響を及ぼす。
本研究では,条件付き雑音信号に基づいて動的に誘導スケールを調整するアニーリング誘導スケジューラを提案する。
スケジューリングポリシを学習することにより,CFGの温度変動に対処する。
実験結果から,スケジューラによる画像の質向上とテキストプロンプトの整合性向上が図られ,テキスト・ツー・イメージ・ジェネレーションの性能向上が図られた。
特に、新しいスケジューラは、追加のアクティベーションやメモリ消費を必要としないため、一般的な分類器なしのガイダンスをシームレスに置き換えることができ、即時アライメントと品質のトレードオフを改善することができます。
関連論文リスト
- How Much To Guide: Revisiting Adaptive Guidance in Classifier-Free Guidance Text-to-Vision Diffusion Models [57.42800112251644]
我々は、シンプルで普遍的な適応型ガイダンス戦略であるStep AGを提案する。
評価は画像品質と画像テキストアライメントの両方に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-10T02:09:48Z) - Feedback Guidance of Diffusion Models [0.0]
Interval-Free Guidance (CFG) は, 条件付き拡散モデルにおける試料の忠実度向上の標準となっている。
本稿では,FBG(FeedBack Guidance)を提案する。
論文 参考訳(メタデータ) (2025-06-06T13:46:32Z) - Text-to-Image Alignment in Denoising-Based Models through Step Selection [5.617018577548289]
ビジュアル生成AIモデルは、テキストイメージのアライメントや推論の制限に関連する問題に遭遇することが多い。
本稿では,入力セマンティクスに基づく画像生成を最適化し,クリティカルデノナイジングステップで選択的に信号を強化する手法を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:10:32Z) - Classifier-free Guidance with Adaptive Scaling [7.179513844921256]
フリーガイダンス(CFG)は、テキスト駆動拡散モデルにおいて必須のメカニズムである。
本稿では,世代誘導の影響を制御できる$beta$adaptive-CFGを提案する。
提案モデルでは,テキスト・ツー・イメージのCLIP類似度スコアを,参照CFGと類似したレベルに維持し,FIDスコアが向上した。
論文 参考訳(メタデータ) (2025-02-14T22:04:53Z) - Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。
本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:51:01Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。