論文の概要: Fine-Grained Perturbation Guidance via Attention Head Selection
- arxiv url: http://arxiv.org/abs/2506.10978v1
- Date: Thu, 12 Jun 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.907954
- Title: Fine-Grained Perturbation Guidance via Attention Head Selection
- Title(参考訳): 注意頭選択による微粒摂動誘導
- Authors: Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Saungwu Lee, Sayak Paul, Susung Hong, Seungryong Kim,
- Abstract要約: ヘードハンター(HeadHunter)は、ユーザ中心の目標に合わせた注意点を反復的に選択するための体系的なフレームワークである。
ソフトパグ(SoftPAG)は、摂動強度を調整し、アーティファクトを抑える連続したノブである。
大規模なDiTベースのテキスト・ツー・イメージ・モデルに対して,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 33.240702611252516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent guidance methods in diffusion models steer reverse sampling by perturbing the model to construct an implicit weak model and guide generation away from it. Among these approaches, attention perturbation has demonstrated strong empirical performance in unconditional scenarios where classifier-free guidance is not applicable. However, existing attention perturbation methods lack principled approaches for determining where perturbations should be applied, particularly in Diffusion Transformer (DiT) architectures where quality-relevant computations are distributed across layers. In this paper, we investigate the granularity of attention perturbations, ranging from the layer level down to individual attention heads, and discover that specific heads govern distinct visual concepts such as structure, style, and texture quality. Building on this insight, we propose "HeadHunter", a systematic framework for iteratively selecting attention heads that align with user-centric objectives, enabling fine-grained control over generation quality and visual attributes. In addition, we introduce SoftPAG, which linearly interpolates each selected head's attention map toward an identity matrix, providing a continuous knob to tune perturbation strength and suppress artifacts. Our approach not only mitigates the oversmoothing issues of existing layer-level perturbation but also enables targeted manipulation of specific visual styles through compositional head selection. We validate our method on modern large-scale DiT-based text-to-image models including Stable Diffusion 3 and FLUX.1, demonstrating superior performance in both general quality enhancement and style-specific guidance. Our work provides the first head-level analysis of attention perturbation in diffusion models, uncovering interpretable specialization within attention layers and enabling practical design of effective perturbation strategies.
- Abstract(参考訳): 拡散モデルにおける最近のガイダンス手法は、モデルを摂動させ、暗黙の弱いモデルを構築し、そこから誘導する。
これらの手法のうち、注意摂動は、分類器フリーガイダンスが適用できない無条件シナリオにおいて、強い経験的性能を示す。
しかし、既存の注意摂動法では、特にディフュージョントランスフォーマー(DiT)アーキテクチャでは、レイヤ間で品質関連計算が分散しているため、摂動をどこに適用すべきかを決定するための原則的なアプローチが欠如している。
本稿では,階層レベルから個々の注目頭部まで,注目摂動の粒度を調査し,特定の頭部が構造,スタイル,テクスチャ品質などの視覚的概念を規定していることを明らかにする。
この知見に基づいて,ユーザ中心の目標に整合したアテンションヘッドを反復的に選択し,生成品質や視覚特性のきめ細かい制御を可能にする,体系的なフレームワークである"HeadHunter"を提案する。
さらに,選択した頭部の注意マップを識別行列に線形に補間し,摂動強度を調整し,人工物を抑制する連続ノブを提供するSoftPAGを導入する。
提案手法は,既存の階層レベルの摂動の過度な問題を緩和するだけでなく,構成的頭部選択による特定の視覚スタイルの操作も可能とした。
提案手法は, 安定拡散3およびFLUX.1を含む, 大規模DiTベースのテキスト・ツー・イメージモデルに対して検証し, 汎用的な品質向上とスタイル固有のガイダンスの両面で優れた性能を示す。
本研究は,拡散モデルにおける注意摂動の第一段階解析を行い,注意層内における解釈可能な特殊化を明らかにするとともに,効果的な摂動戦略の実践的設計を可能にする。
関連論文リスト
- Interactive Video Generation via Domain Adaptation [7.397099215417549]
テキスト条件付き拡散モデルは高品質のビデオ生成のための強力なツールとして登場してきた。
近年の無訓練アプローチでは、軌道案内のための注意マスクが導入されているが、品質は低下することが多い。
これらの手法の2つの重要な障害モードを特定し、どちらもドメイン問題と解釈する。
論文 参考訳(メタデータ) (2025-05-30T06:19:47Z) - Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。
既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。
干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。
コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:05:56Z) - Semi-Supervised 360 Layout Estimation with Panoramic Collaborative Perturbations [56.84921040837699]
協調摂動によるパノラマ配置と歪みの先行を組み込んだセミ教師付きセミ360を提案する。
提案手法が既存のSoTA(State-of-the-art (SoTA)) ソリューションに対して有意な優位性を示すことを示す。
論文 参考訳(メタデータ) (2025-03-03T02:49:20Z) - Breaking the Bias: Recalibrating the Attention of Industrial Anomaly Detection [20.651257973799527]
RAAD(Recalibrating Attention of Industrial Anomaly Detection)は、アテンションマップを系統的に分解・再分類するフレームワークである。
HQSは、アテンションマップの階層性に基づいてビット幅を動的に調整する。
一つの3090tiを用いて,32データセットに対するRAADの有効性を検証した。
論文 参考訳(メタデータ) (2024-12-11T08:31:47Z) - Perturb, Attend, Detect and Localize (PADL): Robust Proactive Image Defense [5.150608040339816]
本稿では,クロスアテンションに基づく符号化と復号の対称スキームを用いて,画像固有の摂動を生成する新しいソリューションであるPADLを紹介する。
提案手法は,StarGANv2,BlendGAN,DiffAE,StableDiffusion,StableDiffusionXLなど,さまざまなアーキテクチャ設計の未確認モデルに一般化する。
論文 参考訳(メタデータ) (2024-09-26T15:16:32Z) - Noise-Free Explanation for Driving Action Prediction [11.330363757618379]
我々は, この欠陥を解消するための, 実装が容易だが効果的な方法を提案する: 平滑な騒音ノルム注意(SNNA)
変換された値ベクトルのノルムで注意を重み付け、アテンション勾配でラベル固有の信号を誘導し、入力摂動をランダムにサンプリングし、対応する勾配を平均化し、ノイズのない属性を生成する。
定性的かつ定量的な評価結果は、より明確な視覚的説明図を作成し、入力画素の重要度をランク付けする他のSOTA注意に基づく説明可能な方法と比較して、SNNAの優位性を示している。
論文 参考訳(メタデータ) (2024-07-08T19:21:24Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。