論文の概要: EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing
- arxiv url: http://arxiv.org/abs/2512.11715v1
- Date: Fri, 12 Dec 2025 16:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.845728
- Title: EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing
- Title(参考訳): EditMGT: 画像編集におけるマスク生成変換器の可能性
- Authors: Wei Chow, Linfeng Li, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu,
- Abstract要約: Masked Generative Transformers (MGT) は、編集プロセス中に非関連領域を保存するために固有の能力を持つローカライズされたデコードパラダイムを示す。
本稿では,MGT ベースの画像編集フレームワーク EditMGT を紹介する。
EditMGTのクロスアテンションマップは、編集関連領域をローカライズするための情報的ローカライズ信号を提供する。
また、低アテンション領域におけるトークンのフリップを制限する領域ホールドサンプリングを導入し、急激な編集を抑える。
- 参考スコア(独自算出の注目度): 84.7089707244905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models (DMs) have achieved exceptional visual quality in image editing tasks. However, the global denoising dynamics of DMs inherently conflate local editing targets with the full-image context, leading to unintended modifications in non-target regions. In this paper, we shift our attention beyond DMs and turn to Masked Generative Transformers (MGTs) as an alternative approach to tackle this challenge. By predicting multiple masked tokens rather than holistic refinement, MGTs exhibit a localized decoding paradigm that endows them with the inherent capacity to explicitly preserve non-relevant regions during the editing process. Building upon this insight, we introduce the first MGT-based image editing framework, termed EditMGT. We first demonstrate that MGT's cross-attention maps provide informative localization signals for localizing edit-relevant regions and devise a multi-layer attention consolidation scheme that refines these maps to achieve fine-grained and precise localization. On top of these adaptive localization results, we introduce region-hold sampling, which restricts token flipping within low-attention areas to suppress spurious edits, thereby confining modifications to the intended target regions and preserving the integrity of surrounding non-target areas. To train EditMGT, we construct CrispEdit-2M, a high-resolution dataset spanning seven diverse editing categories. Without introducing additional parameters, we adapt a pre-trained text-to-image MGT into an image editing model through attention injection. Extensive experiments across four standard benchmarks demonstrate that, with fewer than 1B parameters, our model achieves similarity performance while enabling 6 times faster editing. Moreover, it delivers comparable or superior editing quality, with improvements of 3.6% and 17.6% on style change and style transfer tasks, respectively.
- Abstract(参考訳): 近年の拡散モデル (DM) の進歩は画像編集作業において異常な視覚的品質を実現している。
しかし、DMのグローバルデノベーションダイナミクスは、本質的には局所的な編集対象をフルイメージのコンテキストで説明し、非ターゲット領域における意図しない修正をもたらす。
本稿では,この課題に対処するための代替手法として,DMを超越してMasked Generative Transformers (MGT) に目を向ける。
全体的な改良ではなく、複数のマスク付きトークンを予測することで、MGTは、編集プロセス中に非関連領域を明示的に保存する固有の能力を持つような、局所化されたデコードパラダイムを示す。
この知見に基づいて、最初のMGTベースの画像編集フレームワーク「EditMGT」を紹介した。
MGTのクロスアテンションマップは、編集関連領域の局所化のための情報的ローカライズ信号を提供し、これらのマップを微細かつ精密なローカライズを実現するための多層アテンション統合スキームを考案した。
これらの適応的なローカライゼーション結果に加えて、低アテンション領域におけるトークンのフリップを制限する領域ホールドサンプリングを導入し、スプリットな編集を抑えることにより、対象領域への修正を集約し、周囲の非ターゲット領域の整合性を維持する。
EditMGT をトレーニングするために,7つの編集カテゴリにまたがる高解像度データセット CrispEdit-2M を構築した。
追加パラメータを導入することなく、アテンションインジェクションによる画像編集モデルに事前訓練されたテキスト・ツー・イメージMGTを適用する。
4つの標準ベンチマークによる大規模な実験により,10Bパラメータ未満のモデルでは類似性性能が得られ,編集速度は6倍に向上した。
さらに、同等または優れた編集品質を提供し、スタイル変更とスタイル転送タスクでそれぞれ3.6%と17.6%の改善が加えられている。
関連論文リスト
- Follow-Your-Shape: Shape-Aware Image Editing via Trajectory-Guided Region Control [52.87568958372421]
Follow-Your-Shapeは、トレーニング不要でマスクなしのフレームワークで、オブジェクト形状の正確かつ制御可能な編集をサポートする。
インバージョンとデノナイジングパスのトークン単位の速度差を比較することで,TDM(Torjectory Divergence Map)を算出する。
本手法は、特に大規模な形状変更を必要とするタスクにおいて、優れた編集性と視覚的忠実性を実現する。
論文 参考訳(メタデータ) (2025-08-11T16:10:00Z) - X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。