論文の概要: Addressing Attribute Leakages in Diffusion-based Image Editing without Training
- arxiv url: http://arxiv.org/abs/2412.04715v2
- Date: Tue, 10 Dec 2024 13:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:26.807004
- Title: Addressing Attribute Leakages in Diffusion-based Image Editing without Training
- Title(参考訳): 拡散画像編集における属性漏洩の学習なしでの対応
- Authors: Sunung Mun, Jinhwan Nam, Sunghyun Cho, Jungseul Ok,
- Abstract要約: ALE-Editは、3つのコンポーネントによる属性リークを最小限に抑える新しいフレームワークである。
ALE-Benchは属性リークを評価するためのベンチマークであり、ターゲット外およびターゲット内リークのための新しい指標である。
- 参考スコア(独自算出の注目度): 18.85055192982783
- License:
- Abstract: Diffusion models have become a cornerstone in image editing, offering flexibility with language prompts and source images. However, a key challenge is attribute leakage, where unintended modifications occur in non-target regions or within target regions due to attribute interference. Existing methods often suffer from leakage due to naive text embeddings and inadequate handling of End-of-Sequence (EOS) token embeddings. To address this, we propose ALE-Edit (Attribute-leakage-free editing), a novel framework to minimize attribute leakage with three components: (1) Object-Restricted Embeddings (ORE) to localize object-specific attributes in text embeddings, (2) Region-Guided Blending for Cross-Attention Masking (RGB-CAM) to align attention with target regions, and (3) Background Blending (BB) to preserve non-edited regions. Additionally, we introduce ALE-Bench, a benchmark for evaluating attribute leakage with new metrics for target-external and target-internal leakage. Experiments demonstrate that our framework significantly reduces attribute leakage while maintaining high editing quality, providing an efficient and tuning-free solution for multi-object image editing.
- Abstract(参考訳): 拡散モデルは画像編集の基盤となり、言語プロンプトとソースイメージによる柔軟性を提供する。
しかし、重要な課題は属性リークであり、非ターゲット領域や属性干渉によるターゲット領域内で意図しない修正が発生する。
既存のメソッドは、単純なテキストの埋め込みとEnd-of-Sequence(EOS)トークンの埋め込みの不十分な処理によって、リークに悩まされることが多い。
そこで本稿では,ALE-Edit (Attribute-leakage-free editing) という,テキスト埋め込み中のオブジェクト固有の属性をローカライズするオブジェクト指向埋め込み (ORE) と,対象領域に注意を向けるクロスアテンションマスキング (RGB-CAM) と,非編集領域を保存するためのバックグラウンドブレンディング (BB) という,属性リークを最小限に抑える新しいフレームワークを提案する。
さらに,属性リークを評価するためのベンチマークであるALL-Benchを紹介した。
実験により,本フレームワークは高い編集品質を維持しつつ,属性の漏洩を著しく低減し,マルチオブジェクト画像編集のための効率的かつチューニング不要なソリューションを提供することが示された。
関連論文リスト
- Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - CA-Edit: Causality-Aware Condition Adapter for High-Fidelity Local Facial Attribute Editing [41.92598830147057]
データ駆動の観点から、属性テキストトリプルからなるデータセットを構築するために、新しいデータ利用戦略が導入された。
文脈因果関係の局所的モデリングのための皮膚遷移周波数誘導手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T07:33:22Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing [3.852667054327356]
オブジェクトのフレキシブルでコントロール可能な編集フレームワークであるFlexEditを紹介します。
FlexEditブロックを使用して、各denoisingステップでレイトを反復的に調整します。
当社のフレームワークでは,デノナイズ時に自動的に抽出されるアダプティブマスクを用いて,背景の保護を行う。
論文 参考訳(メタデータ) (2024-03-27T14:24:30Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。