論文の概要: Edit Where You Mean: Region-Aware Adapter Injection for Mask-Free Local Image Editing
- arxiv url: http://arxiv.org/abs/2604.23763v2
- Date: Thu, 30 Apr 2026 04:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.634959
- Title: Edit Where You Mean: Region-Aware Adapter Injection for Mask-Free Local Image Editing
- Title(参考訳): マスクなしローカル画像編集のための地域対応アダプタインジェクション
- Authors: Honghao Cai, Xiangyuan Wang, Yunhao Bai, Haohua Chen, Tianze Zhou, Runqi Wang, Wei Zhu, Yibo Chen, Xu Tang, Yao Hu, Zhen Li,
- Abstract要約: 大規模な拡散変換器 (DiT) はグローバルな編集命令に従っているが、常に非関連領域に局所的な編集をリークする。
そこで我々はAdaptEditを紹介した。AdaptEditは、訓練された命令と地域対応のアダプタフレームワークである。
AdaptEditは最先端の結果を達成し、マスクフリーとオラクルマスクのベースラインを同時に上回る。
- 参考スコア(独自算出の注目度): 28.295031615161136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large diffusion transformers (DiTs) follow global editing instructions well but consistently leak local edits into unrelated regions, because joint-attention architectures offer no explicit channel telling the network where to apply the edit. We introduce AdaptEdit, a co-trained, instruction- and region-aware adapter framework that retro-fits a frozen DiT into a precise local editor without modifying its backbone weights. A lightweight Block Adapter at every transformer block injects a structured condition stream that factorizes what to edit (instruction semantics) from where to edit (spatial mask); a learned SpatialGate routes the adapter signal selectively into the edit region while keeping the rest of the image near-identical to the source; and a Region-Aware Loss focuses the training objective on the changing pixels. Because these components make the backbone's internal representation mask-aware end-to-end, a thin MaskPredictor head trained jointly with the editor can ground the edit region directly from the instruction and source image -- eliminating any user-mask requirement at deployment. We evaluate on two complementary benchmarks: MagicBrush (paired ground-truth targets) to measure pixel-level preservation and edit accuracy, and Emu-Edit Test (no ground-truth images, 9 diverse edit categories) to stress-test instruction following and generalization across edit types. On both, AdaptEdit achieves state-of-the-art results, simultaneously outperforming mask-free and oracle-mask baselines. A seven-variant ablation cleanly isolates the contribution of each component.
- Abstract(参考訳): 大規模な拡散トランスフォーマー (DiT) はグローバルな編集命令に従っているが、非関連領域への局所的な編集を一貫してリークする。
このフレームワークは、冷凍したDiTをバックボーンの重みを変更することなく、正確なローカルエディタにレトロフィットする。
各トランスブロックにおける軽量なBlock Adapterは、編集対象(空間マスク)から編集対象(インストラクションセマンティクス)を分解する構造化条件ストリームを注入し、学習されたSpatialGateは、残りの画像をソースにほぼ同一に保ちながら、アダプタ信号を編集領域に選択的にルーティングする。
これらのコンポーネントは、バックボーンの内部表現マスクをエンド・ツー・エンドにしているため、エディタと共同でトレーニングされた薄いMaskPredictorヘッドは、インストラクションとソースイメージから直接、編集領域を接地することができます。
画素レベルの保存と編集の精度を計測するMagicBrush(paired ground-truth target)と、編集タイプ間のストレステストの追従と一般化のためのEmu-Edit Test(ground-truth image、9つの多様な編集カテゴリ)の2つの相補的なベンチマークを評価した。
どちらも、AdaptEditは最先端の結果を達成し、マスクフリーとオラクルマスクのベースラインを同時に上回ります。
7種類のアブレーションは、各成分の寄与をきれいに分離する。
関連論文リスト
- Rethinking Where to Edit: Task-Aware Localization for Instruction-Based Image Editing [30.23368654238746]
教示に基づく画像編集のための訓練不要でタスク対応の編集ローカライズフレームワークを提案する。
我々のフレームワークは、強い命令追従性能を維持しながら、非編集領域の一貫性を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-22T07:08:01Z) - FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing [7.53296048773288]
テキスト誘導画像編集は、ソース画像の同一性を保ちながら、ターゲットプロンプトに従って特定の領域を変更することを目的としている。
最近の手法では、明示的なバイナリマスクを使用して編集を制限しているが、ハードマスク境界はアーティファクトを導入し、編集性を低減する。
我々は,高精度かつ制御可能な編集を実現する訓練不要の画像編集フレームワークFusionEditを提案する。
論文 参考訳(メタデータ) (2026-02-09T14:34:18Z) - ProEdit: Inversion-based Editing From Prompts Done Right [63.554692704101]
インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。
既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。
注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
論文 参考訳(メタデータ) (2025-12-26T18:59:14Z) - SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
論文 参考訳(メタデータ) (2025-12-12T09:08:39Z) - X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - Addressing Text Embedding Leakage in Diffusion-based Image Editing [33.1686050396517]
本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。