論文の概要: MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.05101v2
- Date: Mon, 12 May 2025 01:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 14:13:13.04373
- Title: MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models
- Title(参考訳): MDE編集:拡散モデルによるマルチオブジェクト画像編集のためのマスク付きデュアル編集
- Authors: Hongyang Zhu, Haipeng Liu, Bo Fu, Yang Wang,
- Abstract要約: 我々は,MDE-Edit と呼ばれる複雑な多目的シーンにおいて,高精度な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。
大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.798205956644317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-object editing aims to modify multiple objects or regions in complex scenes while preserving structural coherence. This task faces significant challenges in scenarios involving overlapping or interacting objects: (1) Inaccurate localization of target objects due to attention misalignment, leading to incomplete or misplaced edits; (2) Attribute-object mismatch, where color or texture changes fail to align with intended regions due to cross-attention leakage, creating semantic conflicts (\textit{e.g.}, color bleeding into non-target areas). Existing methods struggle with these challenges: approaches relying on global cross-attention mechanisms suffer from attention dilution and spatial interference between objects, while mask-based methods fail to bind attributes to geometrically accurate regions due to feature entanglement in multi-object scenarios. To address these limitations, we propose a training-free, inference-stage optimization approach that enables precise localized image manipulation in complex multi-object scenes, named MDE-Edit. MDE-Edit optimizes the noise latent feature in diffusion models via two key losses: Object Alignment Loss (OAL) aligns multi-layer cross-attention with segmentation masks for precise object positioning, and Color Consistency Loss (CCL) amplifies target attribute attention within masks while suppressing leakage to adjacent regions. This dual-loss design ensures localized and coherent multi-object edits. Extensive experiments demonstrate that MDE-Edit outperforms state-of-the-art methods in editing accuracy and visual quality, offering a robust solution for complex multi-object image manipulation tasks.
- Abstract(参考訳): マルチオブジェクト編集は、複雑なシーンにおける複数のオブジェクトや領域を、構造的コヒーレンスを保持しながら変更することを目的としている。
本課題は,物体の重なり合いや相互作用を伴うシナリオにおいて重要な課題に直面する。(1) 注意欠陥による対象物体の非正確な位置決め,不完全あるいは非配置の編集,(2) 色やテクスチャの変化が意図した領域と一致しない属性・オブジェクトのミスマッチ,2) 意味的衝突(\textit{e g },色は非ターゲット領域に出血する)。
既存の手法では、グローバルなクロスアテンション機構に依存するアプローチは、オブジェクト間の注意の希釈や空間的干渉に悩まされる一方、マスクベースの手法は、多目的シナリオにおける特徴の絡み合いにより、属性を幾何学的に正確な領域にバインドすることができない。
これらの制約に対処するため,MDE-Edit と呼ばれる複雑なマルチオブジェクトシーンにおける正確な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。
オブジェクトアライメント損失(OAL)は、正確なオブジェクト位置決めのためのセグメンテーションマスクと多層クロスアテンションを整列し、カラー一貫性損失(CCL)は、隣接する領域へのリークを抑制しながら、マスク内のターゲット属性の注意を増幅する。
このデュアルロス設計により、ローカライズされたコヒーレントなマルチオブジェクト編集が保証される。
大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
関連論文リスト
- Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
意思決定検証機構を備えたマルチエージェント編集システムを構築する。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - Addressing Attribute Leakages in Diffusion-based Image Editing without Training [18.85055192982783]
ALE-Editは、3つのコンポーネントによる属性リークを最小限に抑える新しいフレームワークである。
ALE-Benchは属性リークを評価するためのベンチマークであり、ターゲット外およびターゲット内リークのための新しい指標である。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。