論文の概要: EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance
- arxiv url: http://arxiv.org/abs/2512.17303v1
- Date: Fri, 19 Dec 2025 07:36:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.287173
- Title: EMAG: Self-Rectifying Diffusion Sampling with Exponential Moving Average Guidance
- Title(参考訳): EMAG: 指数移動平均誘導による自己回帰拡散サンプリング
- Authors: Ankit Yadav, Ta Duc Huy, Lingqiao Liu,
- Abstract要約: 拡散および流れマッチング生成モデルでは、サンプルの品質と一貫性を改善するためにガイダンス技術が広く用いられている。
最近の研究では、より弱いモデルを用いた推論における負のサンプルの対比について検討している。
本研究では,拡散変圧器における推定時間における注意を変調するトレーニング不要なメカニズムである,指数移動平均誘導(EMAG)を提案する。
- 参考スコア(独自算出の注目度): 31.550239698285058
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In diffusion and flow-matching generative models, guidance techniques are widely used to improve sample quality and consistency. Classifier-free guidance (CFG) is the de facto choice in modern systems and achieves this by contrasting conditional and unconditional samples. Recent work explores contrasting negative samples at inference using a weaker model, via strong/weak model pairs, attention-based masking, stochastic block dropping, or perturbations to the self-attention energy landscape. While these strategies refine the generation quality, they still lack reliable control over the granularity or difficulty of the negative samples, and target-layer selection is often fixed. We propose Exponential Moving Average Guidance (EMAG), a training-free mechanism that modifies attention at inference time in diffusion transformers, with a statistics-based, adaptive layer-selection rule. Unlike prior methods, EMAG produces harder, semantically faithful negatives (fine-grained degradations), surfacing difficult failure modes, enabling the denoiser to refine subtle artifacts, boosting the quality and human preference score (HPS) by +0.46 over CFG. We further demonstrate that EMAG naturally composes with advanced guidance techniques, such as APG and CADS, further improving HPS.
- Abstract(参考訳): 拡散および流れマッチング生成モデルでは、サンプルの品質と一貫性を改善するためにガイダンス技術が広く用いられている。
クラシファイアフリーガイダンス (CFG) は、現代のシステムにおいて事実上の選択であり、条件付きおよび非条件付きサンプルを対比することでこれを達成している。
最近の研究は、弱いモデル、強い/弱いモデルペア、注意に基づくマスキング、確率的ブロックドロップ、あるいは自己注意エネルギーの風景への摂動を通じて、推論における負のサンプルを対比する。
これらの戦略は生成品質を向上するが、負のサンプルの粒度や難易度に対する信頼性に欠けており、しばしばターゲット層選択が固定される。
本研究では,拡散変圧器における推定時刻の注意を統計に基づく適応層選択規則で変更する学習自由度機構であるExponential moving Average Guidance (EMAG)を提案する。
従来の方法とは異なり、EMAGは難解で意味的に忠実な否定(きめ細かな劣化)を発生させ、難解な失敗モードを克服し、デノイザーは微妙なアーティファクトを洗練させ、CFGを+0.46で品質と人間の嗜好スコア(HPS)を高める。
EMAGはAPGやCADSといった先進的なガイダンス技術によって自然に構成され、HPSをさらに改善することを示す。
関連論文リスト
- Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance [8.46069844016289]
Adversarial Sinkhorn Attention Guidance (ASAG) は、最適な輸送のレンズを通して拡散モデルの注意点を再解釈する新しい手法である。
注意機構を損なう代わりに、ASAGは、クエリとキー間のピクセル単位の類似性を減少させるために、自己注意層内に対向コストを注入する。
ASAGは、テキストと画像の拡散における一貫した改善を示し、IP-AdapterやControlNetといった下流アプリケーションにおける制御性と忠実性を高める。
論文 参考訳(メタデータ) (2025-11-10T15:52:53Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Self-Guidance: Boosting Flow and Diffusion Generation on Their Own [35.56845917727121]
自己誘導(SG)は、低品質サンプルの生成を抑えることにより、生成画像の品質を著しく向上させることができる。
SGは、異なる雑音レベルにおける元の拡散または流れモデルのサンプリングスコア関数に依存する。
我々は、異なるアーキテクチャでテキスト・ツー・イメージとテキスト・ツー・ビデオ生成に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-12-08T06:32:27Z) - Contrastive CFG: Improving CFG in Diffusion Models by Contrasting Positive and Negative Concepts [55.298031232672734]
As-Free Guidance (CFG) は条件拡散モデルサンプリングに有効であることが証明された。
対照的な損失を用いた負のCFG誘導を強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T03:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。