論文の概要: HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Heads
- arxiv url: http://arxiv.org/abs/2411.15034v1
- Date: Fri, 22 Nov 2024 16:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:48.550939
- Title: HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Heads
- Title(参考訳): HeadRouter: 適応的なアテンションヘッドルーティングによるMM-DiTのためのトレーニング不要な画像編集フレームワーク
- Authors: Yu Xu, Fan Tang, Juan Cao, Yuxin Zhang, Xiaoyu Kong, Jintao Li, Oliver Deussen, Tong-Yee Lee,
- Abstract要約: Headは、MM-DiTの異なるアテンションヘッドにテキストガイダンスを適応的にルーティングすることで、ソースイメージを編集する、トレーニング不要の画像編集フレームワークである。
テキスト/画像のトークン表現を洗練し,正確な意味指導と正確な領域表現を行う。
- 参考スコア(独自算出の注目度): 39.94688771600168
- License:
- Abstract: Diffusion Transformers (DiTs) have exhibited robust capabilities in image generation tasks. However, accurate text-guided image editing for multimodal DiTs (MM-DiTs) still poses a significant challenge. Unlike UNet-based structures that could utilize self/cross-attention maps for semantic editing, MM-DiTs inherently lack support for explicit and consistent incorporated text guidance, resulting in semantic misalignment between the edited results and texts. In this study, we disclose the sensitivity of different attention heads to different image semantics within MM-DiTs and introduce HeadRouter, a training-free image editing framework that edits the source image by adaptively routing the text guidance to different attention heads in MM-DiTs. Furthermore, we present a dual-token refinement module to refine text/image token representations for precise semantic guidance and accurate region expression. Experimental results on multiple benchmarks demonstrate HeadRouter's performance in terms of editing fidelity and image quality.
- Abstract(参考訳): DiT(Diffusion Transformer)は、画像生成タスクにおいて堅牢な機能を示す。
しかし、マルチモーダルDiT(MM-DiT)の正確なテキスト誘導画像編集は依然として大きな課題である。
セマンティック編集に自己/横断マップを使用できるUNetベースの構造とは異なり、MM-DiTは本質的に明示的で一貫したテキストガイダンスをサポートしておらず、結果として編集結果とテキスト間のセマンティックなミスアライメントが生じる。
本研究では,MM-DiT内の異なるイメージセマンティクスに対する異なるアテンションヘッドの感度を明らかにするとともに,MM-DiT内の異なるアテンションヘッドにテキストガイダンスを適応的にルーティングすることで,ソースイメージを編集する訓練不要な画像編集フレームワークであるHeadRouterを紹介する。
さらに,テキスト/画像のトークン表現を洗練し,正確な意味指導と正確な領域表現を行うための2点改良モジュールを提案する。
複数のベンチマークによる実験結果から,HeadRouterの編集精度と画質が向上した。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T19:00:52Z) - Exploring Text-Guided Single Image Editing for Remote Sensing Images [30.23541304590692]
本稿では,テキスト誘導型RSI編集手法を提案する。
大規模なベンチマークデータセットのトレーニングを必要とせずに、一貫性を維持するために、マルチスケールのトレーニングアプローチを採用している。
論文 参考訳(メタデータ) (2024-05-09T13:45:04Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。