論文の概要: Entropy Rectifying Guidance for Diffusion and Flow Models
- arxiv url: http://arxiv.org/abs/2504.13987v1
- Date: Fri, 18 Apr 2025 10:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 07:59:50.748964
- Title: Entropy Rectifying Guidance for Diffusion and Flow Models
- Title(参考訳): 拡散・流れモデルのためのエントロピー整流誘導
- Authors: Tariq Berrada Ifriqi, Adriana Romero-Soriano, Michal Drozdzal, Jakob Verbeek, Karteek Alahari,
- Abstract要約: Entropy Rectifying Guidance (ERG) は、最先端拡散変圧器アーキテクチャの注意機構における推定時間変化に基づく、シンプルで効果的な誘導機構である。
ERGは、テキスト・ツー・イメージ、クラス・コンディショナル、および非コンディショナル画像生成などの様々な生成タスクにおいて、大幅な改善をもたらす。
- 参考スコア(独自算出の注目度): 27.673559391846524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guidance techniques are commonly used in diffusion and flow models to improve image quality and consistency for conditional generative tasks such as class-conditional and text-to-image generation. In particular, classifier-free guidance (CFG) -- the most widely adopted guidance technique -- contrasts conditional and unconditional predictions to improve the generated images. This results, however, in trade-offs across quality, diversity and consistency, improving some at the expense of others. While recent work has shown that it is possible to disentangle these factors to some extent, such methods come with an overhead of requiring an additional (weaker) model, or require more forward passes per sampling step. In this paper, we propose Entropy Rectifying Guidance (ERG), a simple and effective guidance mechanism based on inference-time changes in the attention mechanism of state-of-the-art diffusion transformer architectures, which allows for simultaneous improvements over image quality, diversity and prompt consistency. ERG is more general than CFG and similar guidance techniques, as it extends to unconditional sampling. ERG results in significant improvements in various generation tasks such as text-to-image, class-conditional and unconditional image generation. We also show that ERG can be seamlessly combined with other recent guidance methods such as CADS and APG, further boosting generation performance.
- Abstract(参考訳): 誘導技術は拡散とフローモデルにおいて、クラス条件やテキスト・ツー・イメージ生成のような条件付き生成タスクの画質と一貫性を向上させるために一般的に用いられる。
特に、最も広く採用されているガイダンス手法である分類器フリーガイダンス(CFG)は、条件付きおよび条件なしの予測と対比して生成した画像を改善する。
しかし、結果として品質、多様性、一貫性のトレードオフが生じ、一部は他を犠牲にして改善される。
近年の研究では、これらの要因をある程度は解き放つことが可能であることが示されているが、そのような手法には追加の(弱い)モデルが必要か、サンプリングステップ毎により多くのフォワードパスが必要になるというオーバーヘッドが伴っている。
本稿では,最新の拡散トランスフォーマアーキテクチャの注意機構における推論時間変化に基づく簡易かつ効果的なガイダンス機構であるEntropy Rectifying Guidance(ERG)を提案する。
ERGは、非条件サンプリングにまで拡張されるため、CFGや同様のガイダンス技術よりも一般的である。
ERGは、テキスト・ツー・イメージ、クラス・コンディショナル、および非コンディショナル画像生成などの様々な生成タスクにおいて、大幅な改善をもたらす。
また、ERGとCADSやAPGといった最近のガイダンス手法をシームレスに組み合わせることで、生成性能をさらに向上させることができることを示す。
関連論文リスト
- Guidance Free Image Editing via Explicit Conditioning [8.81828807024982]
これを実現するために入力モード上の雑音分布の明示的条件付け(EC)を行う。
画像編集タスクの評価を行い,EC が CFG より優れていることを示す。
論文 参考訳(メタデータ) (2025-03-22T00:44:23Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models [27.640009920058187]
CFG更新ルールを再検討し、この問題に対処するための修正を導入する。
過飽和を伴わない高品質な世代を実現するために並列成分の低重み付けを提案する。
また、この知見に基づいて、CFG更新ルールに対する新しい再スケーリングモーメント手法も導入する。
論文 参考訳(メタデータ) (2024-10-03T12:06:29Z) - CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models [52.29804282879437]
CFG++は、従来のCFG固有のオフマンドの課題に取り組む新しいアプローチである。
より優れたインバージョン・ツー・イメージ生成、可逆性、ガイダンススケールの縮小、モード崩壊の削減などを提供する。
高次拡散解法に容易に統合でき、自然に蒸留拡散モデルに拡張できる。
論文 参考訳(メタデータ) (2024-06-12T10:40:10Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - LT-GAN: Self-Supervised GAN with Latent Transformation Detection [10.405721171353195]
画像の生成品質と多様性を改善するための自己教師付きアプローチ(LT-GAN)を提案する。
我々は,提案するLT-GANが,他の最先端のトレーニング技術と効果的に組み合わせて,付加的なメリットを享受できることを実験的に実証した。
論文 参考訳(メタデータ) (2020-10-19T22:09:45Z) - Image Augmentations for GAN Training [57.65145659417266]
我々は,バニラGANとGANの両方のイメージを正規化して拡張する方法に関する洞察とガイドラインを提供する。
意外なことに、Vanilla GANsは、最近の最先端の結果と同等の世代品質を実現している。
論文 参考訳(メタデータ) (2020-06-04T00:16:02Z) - Group Equivariant Generative Adversarial Networks [7.734726150561089]
本研究では,グループ同変畳み込みネットワークを通じて,帰納的対称性をネットワークアーキテクチャに明示的に組み込む。
群変換はより表現力が高く、サンプルが少ないため、ジェネレータと判別器の間の勾配フィードバックが向上する。
論文 参考訳(メタデータ) (2020-05-04T17:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。