論文の概要: Addressing Attribute Leakages in Diffusion-based Image Editing without Training
- arxiv url: http://arxiv.org/abs/2412.04715v1
- Date: Fri, 06 Dec 2024 02:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:18.525502
- Title: Addressing Attribute Leakages in Diffusion-based Image Editing without Training
- Title(参考訳): 拡散画像編集における属性漏洩の学習なしでの対応
- Authors: Sunung Mun, Jinhwan Nam, Sunghyun Cho, Jungseul Ok,
- Abstract要約: 重要な課題は属性リークであり、非ターゲット領域や属性干渉によるターゲット領域内で意図しない修正が発生する。
既存のメソッドは、単純なテキストの埋め込みとEnd-of-Sequence(EOS)トークンの埋め込みの不十分な処理によって、リークに悩まされることが多い。
1)テキスト埋め込みにおけるオブジェクト固有の属性をローカライズするためのオブジェクト制限埋め込み(ORE)、(2)クロスアテンションマスキング(RGB-CAM)のためのリージョンガイドブレンド(RGB-CAM)、(3)非保存のためのバックグラウンドブレンド(BB)の3つのコンポーネントで属性リークに対処する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.85055192982783
- License:
- Abstract: Diffusion models have become a cornerstone in image editing, offering flexibility with language prompts and source images. However, a key challenge is attribute leakage, where unintended modifications occur in non-target regions or within target regions due to attribute interference. Existing methods often suffer from leakage due to naive text embeddings and inadequate handling of End-of-Sequence (EOS) token embeddings. We propose a novel framework to address attribute leakage with three components: (1) Object-Restricted Embeddings (ORE) to localize object-specific attributes in text embeddings, (2) Region-Guided Blending for Cross-Attention Masking (RGB-CAM) to align attention with target regions, and (3) Background Blending (BB) to preserve non-edited regions. Additionally, we introduce ALE-Bench, a benchmark for evaluating attribute leakage with new metrics for target-external and target-internal leakage. Experiments demonstrate that our framework significantly reduces attribute leakage while maintaining high editing quality, providing an efficient and tuning-free solution for multi-object image editing.
- Abstract(参考訳): 拡散モデルは画像編集の基盤となり、言語プロンプトとソースイメージによる柔軟性を提供する。
しかし、重要な課題は属性リークであり、非ターゲット領域や属性干渉によるターゲット領域内で意図しない修正が発生する。
既存のメソッドは、単純なテキストの埋め込みとEnd-of-Sequence(EOS)トークンの埋め込みの不十分な処理によって、リークに悩まされることが多い。
テキスト埋め込みにおいてオブジェクト固有の属性をローカライズするORE(Object-Restricted Embeddings)、ターゲット領域に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集領域を保存するためのBB(Back background Blending)の3つのコンポーネントで属性リークに対処する新しいフレームワークを提案する。
さらに,属性リークを評価するためのベンチマークであるALL-Benchを紹介した。
実験により,本フレームワークは高い編集品質を維持しながら属性の漏洩を著しく低減し,マルチオブジェクト画像編集のための効率的かつチューニング不要なソリューションを提供することが示された。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing [62.15822650722473]
現在のビデオ編集方法は、元のレイアウトを維持しながら、前景と背景を同時に編集することができない。
複雑な動きを持つ人間中心のビデオに合わせた、textbfzero-shot と textbfmulti-attribute ビデオ編集フレームワークである EVA を紹介する。
EVAは、複数のオブジェクトの編集シナリオに容易に一般化でき、正確なIDマッピングを実現する。
論文 参考訳(メタデータ) (2024-03-24T12:04:06Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Regularizing Self-training for Unsupervised Domain Adaptation via
Structural Constraints [14.593782939242121]
本稿では,従来の自己学習目標を正規化するために,奥行きなどの補助的モーダルから構造的手がかりを取り入れることを提案する。
具体的には、オブジェクトインスタンスの近い領域内でピクセル表現をプルする、対照的なピクセルレベルのオブジェクト性制約を導入する。
セマンティックセグメンテーションのための様々な UDA ベンチマークにおいて,正則化器は最上位の自己学習手法を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-04-29T00:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。