論文の概要: AttnRouter: Per-Category Attention Routing for Training-Free Image Editing on MMDiT
- arxiv url: http://arxiv.org/abs/2605.01480v1
- Date: Sat, 02 May 2026 15:00:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.795023
- Title: AttnRouter: Per-Category Attention Routing for Training-Free Image Editing on MMDiT
- Title(参考訳): AttnRouter:MMDiTによる学習自由画像編集のためのカテゴリごとのアテンションルーティング
- Authors: Guandong Li, Mengxia Ye,
- Abstract要約: QwenImage-Edit-2511, 60ブロックのマルチモーダルトランス (MMDiT) を用いて, 単一注目ストリーム内にノイズやソースイメージトークンを拡散させる訓練自由な画像編集について検討した。
そこで我々は,KVInjectを導入する。KVInjectは,局部化層/ステップバンド内のノイズ半減音にアルファ・半減音鍵/値投影を印加する単一フォワードアテンション操作である。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study training-free image editing on Qwen-Image-Edit-2511, a 60-block multi-modal diffusion transformer (MMDiT) that concatenates noise and source-image tokens within a single attention stream. We make three contributions. (i) We introduce KVInject, a single-forward attention manipulation that alpha-blends source-half key/value projections into the noise-half within a localized layer/step band. KVInject is simpler than the classical two-pass MasaCtrl recipe and avoids the prompt-mismatch failure mode that disables MasaCtrl on MMDiT (composite score drops 31% versus baseline). (ii) We show that no single attention operation dominates across edit types, motivating AttnRouter, a per-category routing table that dispatches edits to the operation that best preserves source structure for that type. With ground-truth categories the router improves the CLIP-T+DINO-I composite by 6.4% over the editing baseline; an automatic CLIP zero-shot classifier closes 98% of this gap despite only 55% category accuracy. (iii) Through layer-, step-, and alpha-band ablations we localize the editing-effective attention sub-circuit: K/V injection in early denoising steps (S0-7) recovers nearly all of the gain of full-step injection, while injection in early (L0-15) or late (L45-60) layer bands fails to drive editing entirely; alpha in [0.3, 0.5] is a stable sweet spot. We also report negative results that highlight what does not transfer from the UNet folklore: simple K/V rescaling never beats baseline and aggressive variants collapse generation entirely (composite 0.084). We release code, pre-computed routing tables, and a 100-sample stratified subset of ImgEdit-Bench used in all ablations.
- Abstract(参考訳): 本研究では,Qwen-Image-Edit-2511(60ブロックマルチモーダル拡散変換器,MMDiT)の学習自由画像編集について検討した。
私たちは3つの貢献をします。
(i)KVInjectは、局部化層/ステップバンド内のノイズ半減音にアルファ半減音鍵/値プロジェクションを印加する単一フォワードアテンション操作である。
KVInject は古典的な2パスの MasaCtrl レシピよりもシンプルで、MMDiT で MasaCtrl を無効にするプロンプトミスマッチ障害モードを避ける(合成スコアはベースラインに対して 31% 減少する)。
(II) 編集対象のソース構造を最もよく保存する操作に編集をディスパッチするカテゴリごとのルーティングテーブルであるAttnRouterを動機付けるため, 編集タイプ間では単一の注意操作が支配的でないことを示す。
地味なカテゴリでは、ルータは編集ベースラインに対してCLIP-T+DINO-I合成を6.4%改善し、CLIPゼロショット分類器は55%の精度でこのギャップの98%を閉じる。
3) 層状, 段状, アルファバンドのアブレーションを通じて, 編集効果のあるサブ回路を局所化する: K/Vインジェクションは早期脱臭工程 (S0-7) で, フルステップインジェクションのほぼすべての利得を回復する一方, 早期(L0-15) または後期(L45-60) 層状バンドは完全編集に失敗し, [0.3, 0.5] のアルファインジェクションは安定なスイートスポットである。
単純なK/V再スケーリングはベースラインを上回りませんし、アグレッシブな変種が完全に崩壊することはありません(例 0.084)。
全アブレーションで使用されるImgEdit-Benchのコード、事前計算されたルーティングテーブル、100サンプルの階層化されたサブセットをリリースする。
関連論文リスト
- THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Directional Routing in Transformers [0.0]
指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
論文 参考訳(メタデータ) (2026-03-16T07:28:22Z) - D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Diffusion As Self-Distillation: End-to-End Latent Diffusion In One Model [53.77953728335891]
ラテント拡散モデルは、独立したエンコーダ、デコーダ、拡散ネットワークからなる複雑な3部アーキテクチャに依存している。
本研究では,潜伏空間を安定化させる学習目標に重要な変更を加えた新たなフレームワークであるDeffusion as Self-Distillation (DSD)を提案する。
このアプローチにより、単一のネットワークの安定したエンドツーエンドトレーニングが初めて実現され、同時にエンコード、デコード、拡散の実行を学ぶことができる。
論文 参考訳(メタデータ) (2025-11-18T17:58:16Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - REPA Works Until It Doesn't: Early-Stopped, Holistic Alignment Supercharges Diffusion Training [58.33728862521732]
Diffusion Transformer (DiTs)は最先端の画像品質を提供するが、訓練は依然として遅い。
最近の治療 -- DiT の隠された特徴と非生成的教師(例えば DINO)の特徴とを一致させる表現アライメント(REPA) -- は、初期のエポックを劇的に加速させるが、その後パフォーマンスを低下させる。
生成学習者が共同データ分布をモデル化し始めると、教師の低次元埋め込みと注意パターンがガイドではなくストラトジャケットになる。
HASTEを紹介する
論文 参考訳(メタデータ) (2025-05-22T15:34:33Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。