論文の概要: Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.18022v1
- Date: Fri, 20 Feb 2026 06:24:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.250908
- Title: Dual-Channel Attention Guidance for Training-Free Image Editing Control in Diffusion Transformers
- Title(参考訳): 拡散変換器の学習自由画像編集制御のためのデュアルチャネル注意誘導
- Authors: Guandong Li, Mengxia Ye,
- Abstract要約: 既存のアテンション操作手法は、アテンションルーティングを変調するキー空間のみにフォーカスする。
本稿では,キーチャネルとバリューチャネルの両方を同時に操作するためのDual-Channel Attention Guidance (DCAG)を提案する。
DCAGは、すべての忠実度指標でキーのみのガイダンスを一貫して上回る。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free control over editing intensity is a critical requirement for diffusion-based image editing models built on the Diffusion Transformer (DiT) architecture. Existing attention manipulation methods focus exclusively on the Key space to modulate attention routing, leaving the Value space -- which governs feature aggregation -- entirely unexploited. In this paper, we first reveal that both Key and Value projections in DiT's multi-modal attention layers exhibit a pronounced bias-delta structure, where token embeddings cluster tightly around a layer-specific bias vector. Building on this observation, we propose Dual-Channel Attention Guidance (DCAG), a training-free framework that simultaneously manipulates both the Key channel (controlling where to attend) and the Value channel (controlling what to aggregate). We provide a theoretical analysis showing that the Key channel operates through the nonlinear softmax function, acting as a coarse control knob, while the Value channel operates through linear weighted summation, serving as a fine-grained complement. Together, the two-dimensional parameter space $(δ_k, δ_v)$ enables more precise editing-fidelity trade-offs than any single-channel method. Extensive experiments on the PIE-Bench benchmark (700 images, 10 editing categories) demonstrate that DCAG consistently outperforms Key-only guidance across all fidelity metrics, with the most significant improvements observed in localized editing tasks such as object deletion (4.9% LPIPS reduction) and object addition (3.2% LPIPS reduction).
- Abstract(参考訳): ディフュージョントランスフォーマ(Diffusion Transformer, DiT)アーキテクチャ上に構築された拡散ベースの画像編集モデルにおいて, 編集強度に対するトレーニング不要な制御が重要な要件である。
既存のアテンション操作メソッドは、アテンションルーティングを変調するキースペースのみに重点を置いており、バリュースペース -- フィーチャーアグリゲーションを管理する -- は完全に公開されていない。
本稿では,DiTのマルチモーダルアテンション層におけるキーとバリューのプロジェクションが明らかにバイアスデルタ構造を示し,トークンの埋め込みは層固有のバイアスベクトルの周囲に密着することを示した。
この観測に基づいて、キーチャネル(出席先を制御する)とバリューチャネル(集約先を制御する)を同時に操作するトレーニングフリーフレームワークであるDual-Channel Attention Guidance (DCAG)を提案する。
本稿では,キーチャネルが非線形ソフトマックス関数を介して動作し,粗い制御ノブとして機能し,バリューチャネルが線形重み付け和を通じて動作し,微細な補体として機能することを示す理論的解析を行う。
2次元パラメータ空間 $(δ_k, δ_v)$ は、任意の単一チャネル法よりも正確な編集-忠実トレードオフを可能にする。
PIE-Benchベンチマーク(700のイメージ、10の編集カテゴリ)の大規模な実験では、DCAGはすべての忠実度指標でキーのみのガイダンスよりも優れており、オブジェクト削除(4.9%のLPIPS削減)やオブジェクトの追加(3.2%のLPIPS削減)といった局所的な編集タスクにおいて最も顕著な改善が見られた。
関連論文リスト
- Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers [11.003945673813488]
Diffusion Transformerは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において重要な役割を果たす。
本稿では,Relevance-Guided Efficient Controllable GenerationフレームワークRelaCtrlを提案する。
本手法は PixArt-delta と比較して, パラメータと計算複雑性の 15% しか得られず, 優れた性能を実現する。
論文 参考訳(メタデータ) (2025-02-20T09:10:05Z) - Label-Efficient Data Augmentation with Video Diffusion Models for Guidewire Segmentation in Cardiac Fluoroscopy [16.62770246342126]
深層学習法はワイヤセグメンテーションにおいて高い精度とロバスト性を示した。
これらの手法は、一般化可能性のためにかなりのデータセットを必要とする。
ラベル付き蛍光ビデオの大規模なコレクションを生成するためのフレーム一貫性拡散モデル(SF-VD)を提案する。
論文 参考訳(メタデータ) (2024-12-20T16:52:11Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。