論文の概要: CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing
- arxiv url: http://arxiv.org/abs/2506.18438v1
- Date: Mon, 23 Jun 2025 09:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.921422
- Title: CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing
- Title(参考訳): CPAM: ゼロショットリアルタイム画像編集のためのコンテキスト保存適応マニピュレーション
- Authors: Dinh-Khoi Vo, Thanh-Toan Do, Tam V. Nguyen, Minh-Triet Tran, Trung-Nghia Le,
- Abstract要約: コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。
我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。
また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
- 参考スコア(独自算出の注目度): 24.68304617869157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Editing natural images using textual descriptions in text-to-image diffusion models remains a significant challenge, particularly in achieving consistent generation and handling complex, non-rigid objects. Existing methods often struggle to preserve textures and identity, require extensive fine-tuning, and exhibit limitations in editing specific spatial regions or objects while retaining background details. This paper proposes Context-Preserving Adaptive Manipulation (CPAM), a novel zero-shot framework for complicated, non-rigid real image editing. Specifically, we propose a preservation adaptation module that adjusts self-attention mechanisms to preserve and independently control the object and background effectively. This ensures that the objects' shapes, textures, and identities are maintained while keeping the background undistorted during the editing process using the mask guidance technique. Additionally, we develop a localized extraction module to mitigate the interference with the non-desired modified regions during conditioning in cross-attention mechanisms. We also introduce various mask-guidance strategies to facilitate diverse image manipulation tasks in a simple manner. Extensive experiments on our newly constructed Image Manipulation BenchmArk (IMBA), a robust benchmark dataset specifically designed for real image editing, demonstrate that our proposed method is the preferred choice among human raters, outperforming existing state-of-the-art editing techniques.
- Abstract(参考訳): テキストから画像への拡散モデルにおけるテキスト記述を用いた自然画像の編集は、特に一貫性のある生成と複雑な非剛体オブジェクトの処理において重要な課題である。
既存の手法はしばしばテクスチャやアイデンティティの保存に苦労し、広範囲の微調整を必要とし、背景の詳細を維持しながら特定の空間領域やオブジェクトの編集に制限を課す。
本稿では,複雑な非厳密な実画像編集のための新しいゼロショットフレームワークであるコンテキスト保存適応マニピュレーション(CPAM)を提案する。
具体的には、オブジェクトと背景を効果的に保存し、独立に制御するための自己注意機構を調整した保存適応モジュールを提案する。
これにより、被写体の形状、テクスチャ、アイデンティティが維持され、マスク誘導技術を用いて編集プロセス中に背景が歪まないようにする。
さらに, クロスアテンション機構の条件付けにおいて, 非望ましくない修正領域との干渉を軽減するために, 局所抽出モジュールを開発した。
また,多様な画像操作作業を簡単に行うためのマスク誘導戦略も導入した。
実画像編集に特化して設計された頑健なベンチマークデータセットである画像操作ベンチムアーク(IMBA)の広範囲にわたる実験により,提案手法が従来の最先端の編集技術より優れていることを示す。
関連論文リスト
- AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。