論文の概要: FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing
- arxiv url: http://arxiv.org/abs/2602.08725v1
- Date: Mon, 09 Feb 2026 14:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.293972
- Title: FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing
- Title(参考訳): FusionEdit: トレーニング不要の画像編集のためのセマンティックフュージョンとアテンション変調
- Authors: Yongwen Lai, Chaoqun Wang, Shaobo Min,
- Abstract要約: テキスト誘導画像編集は、ソース画像の同一性を保ちながら、ターゲットプロンプトに従って特定の領域を変更することを目的としている。
最近の手法では、明示的なバイナリマスクを使用して編集を制限しているが、ハードマスク境界はアーティファクトを導入し、編集性を低減する。
我々は,高精度かつ制御可能な編集を実現する訓練不要の画像編集フレームワークFusionEditを提案する。
- 参考スコア(独自算出の注目度): 7.53296048773288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing aims to modify specific regions according to the target prompt while preserving the identity of the source image. Recent methods exploit explicit binary masks to constrain editing, but hard mask boundaries introduce artifacts and reduce editability. To address these issues, we propose FusionEdit, a training-free image editing framework that achieves precise and controllable edits. First, editing and preserved regions are automatically identified by measuring semantic discrepancies between source and target prompts. To mitigate boundary artifacts, FusionEdit performs distance-aware latent fusion along region boundaries to yield the soft and accurate mask, and employs a total variation loss to enforce smooth transitions, obtaining natural editing results. Second, FusionEdit leverages AdaIN-based modulation within DiT attention layers to perform a statistical attention fusion in the editing region, enhancing editability while preserving global consistency with the source image. Extensive experiments demonstrate that our FusionEdit significantly outperforms state-of-the-art methods. Code is available at \href{https://github.com/Yvan1001/FusionEdit}{https://github.com/Yvan1001/FusionEdit}.
- Abstract(参考訳): テキスト誘導画像編集は、ソース画像の同一性を保ちながら、ターゲットプロンプトに従って特定の領域を変更することを目的としている。
最近の手法では、明示的なバイナリマスクを使用して編集を制限しているが、ハードマスク境界はアーティファクトを導入し、編集性を低減する。
これらの問題に対処するため、我々は、正確かつ制御可能な編集を実現する訓練不要の画像編集フレームワークFusionEditを提案する。
まず、ソースプロンプトとターゲットプロンプトのセマンティックな差異を測定することで、編集および保存された領域を自動的に識別する。
境界アーチファクトを緩和するため、FusionEditは領域境界に沿って距離対応の潜伏核融合を行い、ソフトで正確なマスクを生成する。
第2に、FusionEditは、DiTアテンション層内のAdaINベースの変調を利用して、編集領域における統計的アテンションフュージョンを実行し、ソースイメージとのグローバルな一貫性を維持しながら、編集性を向上させる。
大規模な実験により、FusionEditは最先端の手法を大幅に上回っていることが示された。
コードは \href{https://github.com/Yvan1001/FusionEdit}{https://github.com/Yvan1001/FusionEdit} で公開されている。
関連論文リスト
- SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing [3.852667054327356]
オブジェクトのフレキシブルでコントロール可能な編集フレームワークであるFlexEditを紹介します。
FlexEditブロックを使用して、各denoisingステップでレイトを反復的に調整します。
当社のフレームワークでは,デノナイズ時に自動的に抽出されるアダプティブマスクを用いて,背景の保護を行う。
論文 参考訳(メタデータ) (2024-03-27T14:24:30Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。