論文の概要: Angle Domain Guidance: Latent Diffusion Requires Rotation Rather Than Extrapolation
- arxiv url: http://arxiv.org/abs/2506.11039v1
- Date: Wed, 21 May 2025 03:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.502975
- Title: Angle Domain Guidance: Latent Diffusion Requires Rotation Rather Than Extrapolation
- Title(参考訳): アングルドメインガイダンス:潜伏拡散は外挿よりも回転を必要とする
- Authors: Cheng Jin, Zhenyu Xiao, Chutao Liu, Yuantao Gu,
- Abstract要約: テキスト画像のアライメントが大幅に向上する高い誘導重みの下では、分類器なし誘導(CFG)は生成された画像に顕著な色歪みをもたらす。
CFGにより誘導されるノルム増幅と異常拡散現象のメカニズムを解明する理論的枠組みを提案する。
テキスト・イメージアライメントの強化を保ちながら色歪みを軽減するアングル・ドメイン・ガイダンス(ADG)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.209660996306184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifier-free guidance (CFG) has emerged as a pivotal advancement in text-to-image latent diffusion models, establishing itself as a cornerstone technique for achieving high-quality image synthesis. However, under high guidance weights, where text-image alignment is significantly enhanced, CFG also leads to pronounced color distortions in the generated images. We identify that these distortions stem from the amplification of sample norms in the latent space. We present a theoretical framework that elucidates the mechanisms of norm amplification and anomalous diffusion phenomena induced by classifier-free guidance. Leveraging our theoretical insights and the latent space structure, we propose an Angle Domain Guidance (ADG) algorithm. ADG constrains magnitude variations while optimizing angular alignment, thereby mitigating color distortions while preserving the enhanced text-image alignment achieved at higher guidance weights. Experimental results demonstrate that ADG significantly outperforms existing methods, generating images that not only maintain superior text alignment but also exhibit improved color fidelity and better alignment with human perceptual preferences.
- Abstract(参考訳): 分類器フリーガイダンス(CFG)はテキストから画像への遅延拡散モデルにおいて重要な進歩として現れ、高品質な画像合成を実現するための基礎となる技術として確立されている。
しかし、テキスト画像のアライメントが大幅に向上する高誘導重みの下では、CFGは生成された画像に顕著な色歪みをもたらす。
これらの歪みは、潜在空間におけるサンプルノルムの増幅に由来する。
本稿では,標準増幅のメカニズムを解明する理論的枠組みを提案する。
理論的知見と潜在空間構造を利用して,アングル・ドメイン・ガイダンス(ADG)アルゴリズムを提案する。
ADGは角度アライメントを最適化しながら大きさのばらつきを制限し、より高い誘導重みで達成されたテキスト画像アライメントを保ちながら色歪みを緩和する。
実験の結果、ADGは既存の手法よりも優れており、優れたテキストアライメントを維持できるだけでなく、色忠実性も向上し、人間の知覚的嗜好との整合性が向上することが示された。
関連論文リスト
- Entropy Rectifying Guidance for Diffusion and Flow Models [27.673559391846524]
Entropy Rectifying Guidance (ERG) は、最先端拡散変圧器アーキテクチャの注意機構における推定時間変化に基づく、シンプルで効果的な誘導機構である。
ERGは、テキスト・ツー・イメージ、クラス・コンディショナル、および非コンディショナル画像生成などの様々な生成タスクにおいて、大幅な改善をもたらす。
論文 参考訳(メタデータ) (2025-04-18T10:15:33Z) - Learning to Harmonize Cross-vendor X-ray Images by Non-linear Image Dynamics Correction [13.836238771024254]
領域固有の画像力学の非線形特性は、単純な線形変換では扱えないことを示す。
ドメイン固有のミスマッチ露光を低減するため,Global Deep Curve Estimationという手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T10:24:57Z) - Classifier-Free Guidance: From High-Dimensional Analysis to Generalized Guidance Forms [22.44946627454133]
CFGは十分に高次元かつ無限次元のターゲット分布を正確に再現することを示す。
我々は、この性質、特に非線形CFG一般化を享受するガイダンスが多数存在することを示す。
本研究は,最先端拡散モデルとフローマッチングモデルを用いて,クラス条件とテキスト・ツー・イメージ生成の実験により検証した。
論文 参考訳(メタデータ) (2025-02-11T10:29:29Z) - Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention [0.7770029179741429]
条件付き拡散モデルは、視覚コンテンツ生成において顕著な成功を収めている。
非条件ガイダンスを拡張しようとする最近の試みはテクニックに依存しており、その結果、最適以下の生成品質が得られる。
Smoothed Energy Guidance (SEG) を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:59:09Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Global Structure-Aware Diffusion Process for Low-Light Image Enhancement [64.69154776202694]
本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。
我々は、その固有のODE-軌道の正規化を提唱する。
実験により,提案手法は低照度化において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-10-26T17:01:52Z) - Controlling Text-to-Image Diffusion by Orthogonal Finetuning [74.21549380288631]
そこで本研究では,テキストから画像への拡散モデルを下流タスクに適用するための原理的な微調整手法であるorthogonal Finetuning(OFT)を提案する。
既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。
我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-06-12T17:59:23Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。