Fugu-MT 論文翻訳(概要): Rethinking Where to Edit: Task-Aware Localization for Instruction-Based Image Editing

論文の概要: Rethinking Where to Edit: Task-Aware Localization for Instruction-Based Image Editing

arxiv url: http://arxiv.org/abs/2604.20258v1
Date: Wed, 22 Apr 2026 07:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.003445
Title: Rethinking Where to Edit: Task-Aware Localization for Instruction-Based Image Editing
Title（参考訳）: 編集の場所を再考する: インストラクションに基づく画像編集のためのタスク・アウェア・ローカライゼーション
Authors: Jingxuan He, Xiyu Wang, Mengyu Zheng, Xiangyu Zeng, Yunke Wang, Chang Xu,
Abstract要約: 教示に基づく画像編集のための訓練不要でタスク対応の編集ローカライズフレームワークを提案する。我々のフレームワークは、強い命令追従性能を維持しながら、非編集領域の一貫性を一貫して改善する。
参考スコア（独自算出の注目度）: 30.23368654238746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction-based image editing (IIE) aims to modify images according to textual instructions while preserving irrelevant content. Despite recent advances in diffusion transformers, existing methods often suffer from over-editing, introducing unintended changes to regions unrelated to the desired edit. We identify that this limitation arises from the lack of an explicit mechanism for edit localization. In particular, different editing operations (e.g., addition, removal and replacement) induce distinct spatial patterns, yet current IIE models typically treat localization in a task-agnostic manner. To address this limitation, we propose a training-free, task-aware edit localization framework that exploits the intrinsic source and target image streams within IIE models. For each image stream, We first obtain attention-based edit cues, and then construct feature centroids based on these attentive cues to partition tokens into edit and non-edit regions. Based on the observation that optimal localization is inherently task-dependent, we further introduce a unified mask construction strategy that selectively leverages source and target image streams for different editing tasks. We provide a systematic analysis for our proposed insights and approaches. Extensive experiments on EdiVal-Bench demonstrate our framework consistently improves non-edit region consistency while maintaining strong instruction-following performance on top of powerful recent image editing backbones, including Step1X-Edit and Qwen-Image-Edit.
Abstract（参考訳）: インストラクションベースの画像編集(IIE)は、無関係なコンテンツを保持しながら、テキストの指示に従って画像を変更することを目的としている。近年の拡散変圧器の進歩にもかかわらず、既存の方法は過剰な編集に悩まされ、望まれる編集とは無関係な領域に意図しない変更をもたらす。この制限は、ローカライゼーションを編集するための明示的なメカニズムが欠如していることから生じる。特に、異なる編集操作(例えば、追加、削除、置換)は、異なる空間パターンを誘導するが、現在のIIEモデルは、通常、タスクに依存しない方法でローカライゼーションを扱う。この制限に対処するため,IIEモデル内の本質的なソースとターゲット画像ストリームを利用する,トレーニング不要でタスク対応の編集ローカライゼーションフレームワークを提案する。各画像ストリームに対して、まず注意に基づく編集キューを取得し、次にこれらの注意深いキューに基づいて特徴セントロイドを構築し、トークンを編集領域と非編集領域に分割する。最適な局所化は本来タスクに依存しているという観察に基づいて、異なる編集タスクに対して、ソースストリームとターゲット画像ストリームを選択的に活用する統一マスク構築戦略を導入する。提案した洞察とアプローチを体系的に分析する。 EdiVal-Benchに関する大規模な実験は、Step1X-EditやQwen-Image-Editなど、最近の強力な画像編集バックボーン上での強い命令追従性能を維持しながら、非編集領域の一貫性を一貫して向上することを示した。

関連論文リスト

LocateEdit-Bench: A Benchmark for Instruction-Based Editing Localization [21.62979058692505]
フォージェリローカライゼーション手法をベンチマークするために,231ドルの編集画像からなる大規模データセットを提案する。データセットには、4つの最先端編集モデルと3つの一般的な編集タイプが組み込まれている。我々の研究は、画像編集の進化する状況に追従する基盤を確立し、将来の偽のローカライゼーションのための効果的な手法の開発を容易にする。
論文参考訳（メタデータ） (2026-02-05T12:01:09Z)
CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文参考訳（メタデータ） (2025-06-23T09:19:38Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文参考訳（メタデータ） (2025-05-16T23:29:38Z)
LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing [6.057289837472806]
テキスト誘導画像編集は、自然言語の指示に従って画像の特定の領域を変更することを目的としている。クロスアテンションメカニズムは意味的関連性に重点を置いているため、画像の整合性を維持するのに苦労している。 LOCATEditを導入し、グラフベースのアプローチにより、横断アテンションマップを強化する。
論文参考訳（メタデータ） (2025-03-27T14:32:17Z)
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の66～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文参考訳（メタデータ） (2024-12-05T02:05:33Z)
LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。 LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文参考訳（メタデータ） (2023-12-14T18:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。