論文の概要: Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
- arxiv url: http://arxiv.org/abs/2511.07499v1
- Date: Wed, 12 Nov 2025 01:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.366647
- Title: Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance
- Title(参考訳): 逆スキンホーン注意誘導による信頼拡散サンプリングのフロンティアに向けて
- Authors: Kwanyoung Kim,
- Abstract要約: Adversarial Sinkhorn Attention Guidance (ASAG) は、最適な輸送のレンズを通して拡散モデルの注意点を再解釈する新しい手法である。
注意機構を損なう代わりに、ASAGは、クエリとキー間のピクセル単位の類似性を減少させるために、自己注意層内に対向コストを注入する。
ASAGは、テキストと画像の拡散における一貫した改善を示し、IP-AdapterやControlNetといった下流アプリケーションにおける制御性と忠実性を高める。
- 参考スコア(独自算出の注目度): 8.46069844016289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have demonstrated strong generative performance when using guidance methods such as classifier-free guidance (CFG), which enhance output quality by modifying the sampling trajectory. These methods typically improve a target output by intentionally degrading another, often the unconditional output, using heuristic perturbation functions such as identity mixing or blurred conditions. However, these approaches lack a principled foundation and rely on manually designed distortions. In this work, we propose Adversarial Sinkhorn Attention Guidance (ASAG), a novel method that reinterprets attention scores in diffusion models through the lens of optimal transport and intentionally disrupt the transport cost via Sinkhorn algorithm. Instead of naively corrupting the attention mechanism, ASAG injects an adversarial cost within self-attention layers to reduce pixel-wise similarity between queries and keys. This deliberate degradation weakens misleading attention alignments and leads to improved conditional and unconditional sample quality. ASAG shows consistent improvements in text-to-image diffusion, and enhances controllability and fidelity in downstream applications such as IP-Adapter and ControlNet. The method is lightweight, plug-and-play, and improves reliability without requiring any model retraining.
- Abstract(参考訳): 拡散モデルでは,分類器フリーガイダンス (CFG) などの誘導手法を用いることで,サンプリング軌道の変更による出力品質の向上が図られている。
これらの手法は、しばしば無条件の出力を故意に劣化させ、アイデンティティの混合や曖昧な条件のようなヒューリスティックな摂動関数を用いて目標出力を改善する。
しかし、これらのアプローチには原則的な基礎がなく、手動で設計した歪みに依存している。
本研究では,最適な輸送のレンズを通して拡散モデルの注意点を再解釈し,シンクホーンアルゴリズムによる輸送コストを意図的に破壊する新しい手法であるAdversarial Sinkhorn Attention Guidance (ASAG)を提案する。
注意機構を損なう代わりに、ASAGは、クエリとキー間のピクセル単位の類似性を減少させるために、自己注意層内に対向コストを注入する。
この故意劣化は、誤解を招く注意アライメントを弱め、条件および非条件のサンプル品質を改善する。
ASAGは、テキストと画像の拡散における一貫した改善を示し、IP-AdapterやControlNetといった下流アプリケーションにおける制御性と忠実性を高める。
この方法は軽量でプラグアンドプレイで、モデルの再トレーニングを必要とせずに信頼性を向上させる。
関連論文リスト
- Enhancing Diffusion Model Guidance through Calibration and Regularization [9.22066257345387]
本稿では,この問題に対処するための2つの補完的貢献を紹介する。
まず,Smooth expected Error(Smooth ECE)に基づく微分可能なキャリブレーション目標を提案する。
第2に,再訓練を必要とせず,市販の分類器で動作可能なサンプリング誘導手法を開発した。
論文 参考訳(メタデータ) (2025-11-08T04:23:42Z) - Boosting Fidelity for Pre-Trained-Diffusion-Based Low-Light Image Enhancement via Condition Refinement [63.54516423266521]
事前学習拡散ベース(PTDB)法は、しばしばコンテンツ忠実さを犠牲にして知覚的リアリズムを高める。
本稿では,事前学習した拡散モデルにおける条件付けのための新しい最適化手法を提案する。
我々のアプローチはプラグアンドプレイであり、より効率的な制御を提供するために既存の拡散ネットワークにシームレスに統合される。
論文 参考訳(メタデータ) (2025-10-20T02:40:06Z) - TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling [53.61290359948953]
タンジェンシャル増幅誘導(TAG)は、下層の拡散モデルを変更することなく、軌道信号のみで動作する。
この誘導過程を1次テイラー展開を利用して定式化する。
TAGは、最小限の計算加算で拡散サンプリング忠実度を改善する、プラグアンドプレイのアーキテクチャに依存しないモジュールである。
論文 参考訳(メタデータ) (2025-10-06T06:53:29Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Self-Rectifying Diffusion Sampling with Perturbed-Attention Guidance [28.354284737867136]
Perturbed-Attention Guidance (PAG)は、無条件と条件の両方で拡散サンプルの品質を向上させる。
ADMとStable Diffusionの両方において、PAGは驚くほど、条件付きおよび条件なしのシナリオにおけるサンプル品質を改善します。
論文 参考訳(メタデータ) (2024-03-26T04:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。