論文の概要: Masked Generative Transformer Is What You Need for Image Editing
- arxiv url: http://arxiv.org/abs/2605.10859v1
- Date: Mon, 11 May 2026 17:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.022094
- Title: Masked Generative Transformer Is What You Need for Image Editing
- Title(参考訳): Masked Generative Transformerは、画像編集に必要なもの
- Authors: Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu,
- Abstract要約: 拡散モデルは、編集された領域を周囲のコンテキストと絡み合わせることで、変更が持続するべき領域に伝播する。
本稿では,局所化トークン予測パラダイムが意図した領域の変更を自然に限定するMasked Generative Transformers (MGTs)を活用することによって,根本的に異なるアプローチを提案する。
本稿では,MGTベースの編集フレームワークであるEditMGTについて紹介する。
- 参考スコア(独自算出の注目度): 91.7627902312967
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models dominate image editing, yet their global denoising mechanism entangles edited regions with surrounding context, causing modifications to propagate into areas that should remain intact. We propose a fundamentally different approach by leveraging Masked Generative Transformers (MGTs), whose localized token-prediction paradigm naturally confines changes to intended regions. We present EditMGT, an MGT-based editing framework that is the first of its kind. Our approach employs multi-layer attention consolidation to aggregate cross-attention maps into precise edit localization signals, and region-hold sampling to explicitly prevent token flipping in non-target areas. To support training, we construct CrispEdit-2M, a 2M-sample high-resolution (>1024) editing dataset spanning seven categories. With only 960M parameters, EditMGT achieves state-of-the-art image similarity on multiple benchmarks while delivering 6x faster editing, demonstrating that MGTs offer a compelling alternative to diffusion-based editing.
- Abstract(参考訳): 拡散モデルは画像編集を支配しているが、そのグローバルデノベーション機構は、編集された領域を周囲のコンテキストで絡み合わせることで、変更が持続するべき領域に伝播する。
本稿では,局所化トークン予測パラダイムが意図した領域の変更を自然に限定するMasked Generative Transformers (MGTs)を活用することによって,根本的に異なるアプローチを提案する。
本稿では,MGTベースの編集フレームワークであるEditMGTについて紹介する。
提案手法では,多層アテンション統合を用いて,クロスアテンションマップを正確な編集ローカライズ信号に集約し,領域ホールドサンプリングにより,非ターゲット領域におけるトークンのフリップを明示的に防止する。
学習を支援するため、2Mサンプルの高解像度(>1024)編集データセットであるCrispEdit-2Mを構築し、7つのカテゴリにまたがる。
960万のパラメータだけで、EditMGTは複数のベンチマークで最先端の画像類似性を達成し、6倍高速な編集を実現し、MGTが拡散ベースの編集に代わる魅力的な代替手段を提供することを示した。
関連論文リスト
- SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing [84.7089707244905]
Masked Generative Transformers (MGT) は、編集プロセス中に非関連領域を保存するために固有の能力を持つローカライズされたデコードパラダイムを示す。
本稿では,MGT ベースの画像編集フレームワーク EditMGT を紹介する。
EditMGTのクロスアテンションマップは、編集関連領域をローカライズするための情報的ローカライズ信号を提供する。
また、低アテンション領域におけるトークンのフリップを制限する領域ホールドサンプリングを導入し、急激な編集を抑える。
論文 参考訳(メタデータ) (2025-12-12T16:51:19Z) - NEP: Autoregressive Image Editing via Next Editing Token Prediction [16.69384738678215]
本稿では,自動回帰画像生成に基づくNext Editing-token Prediction(NEP)として画像編集を定式化することを提案する。
我々のモデルは、ゼロショット方式でその生成を反復的に精錬することで、テスト時間スケーリング(TTS)を自然にサポートします。
論文 参考訳(メタデータ) (2025-08-08T06:06:34Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。