論文の概要: Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.21179v2
- Date: Sat, 31 May 2025 18:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.016917
- Title: Normalized Attention Guidance: Universal Negative Guidance for Diffusion Model
- Title(参考訳): 正規化注意誘導:拡散モデルにおける普遍否定誘導
- Authors: Dar-Yen Chen, Hmrishav Bandyopadhyay, Kai Zou, Yi-Zhe Song,
- Abstract要約: 注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
- 参考スコア(独自算出の注目度): 57.20761595019967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negative guidance -- explicitly suppressing unwanted attributes -- remains a fundamental challenge in diffusion models, particularly in few-step sampling regimes. While Classifier-Free Guidance (CFG) works well in standard settings, it fails under aggressive sampling step compression due to divergent predictions between positive and negative branches. We present Normalized Attention Guidance (NAG), an efficient, training-free mechanism that applies extrapolation in attention space with L1-based normalization and refinement. NAG restores effective negative guidance where CFG collapses while maintaining fidelity. Unlike existing approaches, NAG generalizes across architectures (UNet, DiT), sampling regimes (few-step, multi-step), and modalities (image, video), functioning as a \textit{universal} plug-in with minimal computational overhead. Through extensive experimentation, we demonstrate consistent improvements in text alignment (CLIP Score), fidelity (FID, PFID), and human-perceived quality (ImageReward). Our ablation studies validate each design component, while user studies confirm significant preference for NAG-guided outputs. As a model-agnostic inference-time approach requiring no retraining, NAG provides effortless negative guidance for all modern diffusion frameworks -- pseudocode in the Appendix!
- Abstract(参考訳): 不必要な属性を明示的に抑制する負のガイダンスは、拡散モデル、特に数段階のサンプリング体制において、依然として根本的な課題である。
Classifier-Free Guidance (CFG) は標準設定でうまく機能するが、正と負の分岐の分岐予測により、積極的なサンプリングステップ圧縮で失敗する。
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
既存のアプローチとは異なり、NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(fw-step、multi-step)、モダリティ(image、 video)を一般化し、最小の計算オーバーヘッドで \textit{universal} プラグインとして機能する。
広汎な実験により,テキストアライメント(CLIPスコア),忠実度(FID,PFID),人文品質(ImageReward)が一貫した改善を示した。
本研究は,NAG誘導出力に対するユーザの嗜好を高く評価する一方で,各設計要素の妥当性を検証した。
モデルに依存しない推論時間アプローチとして、NAGは、すべてのモダンな拡散フレームワーク -- Appendixの擬似コード!
関連論文リスト
- Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking [15.052244821404079]
本稿では,モデルの予測信頼度を利用して非条件入力を調整する新しい手法であるAdaptive-Free Guidance (A-CFG)を紹介する。
A-CFGは、より効果的なガイダンスにつながる曖昧さの領域に焦点を当てている。
多様な言語生成ベンチマークの実験では、A-CFGは標準CFGよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-05-26T16:40:22Z) - Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [32.91402070439289]
自己誘導(SG)は、低品質サンプルの生成を抑制して画質を向上させる。
我々は、異なるアーキテクチャでテキスト・ツー・イメージとテキスト・ツー・ビデオ生成の実験を行う。
論文 参考訳(メタデータ) (2024-12-08T06:32:27Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z) - Dynamic Negative Guidance of Diffusion Models [13.873685216429868]
負のプロンプティング(NP)は、一定の指導尺度の仮定によって制限されていることを示す。
我々は、ほぼ最適時間とガイダンスの状態依存変調に依存する、Dynamic Negative Guidanceと呼ばれる原則的手法を導出する。
以上の結果から,DNGを安定拡散法を用いてNPよりも正確で侵襲的なガイダンスを得ることが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-10-18T12:02:21Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。