論文の概要: Addressing Text Embedding Leakage in Diffusion-based Image Editing
- arxiv url: http://arxiv.org/abs/2412.04715v4
- Date: Mon, 25 Aug 2025 06:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.421693
- Title: Addressing Text Embedding Leakage in Diffusion-based Image Editing
- Title(参考訳): 拡散画像編集における漏洩テキスト埋め込み
- Authors: Sunung Mun, Jinhwan Nam, Sunghyun Cho, Jungseul Ok,
- Abstract要約: 本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
- 参考スコア(独自算出の注目度): 33.1686050396517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based image editing, powered by generative diffusion models, lets users modify images through natural-language prompts and has dramatically simplified traditional workflows. Despite these advances, current methods still suffer from a critical problem: attribute leakage, where edits meant for specific objects unintentionally affect unrelated regions or other target objects. Our analysis reveals the root cause as the semantic entanglement inherent in End-of-Sequence (EOS) embeddings generated by autoregressive text encoders, which indiscriminately aggregate attributes across prompts. To address this issue, we introduce Attribute-Leakage-free Editing (ALE), a framework that tackles attribute leakage at its source. ALE combines Object-Restricted Embeddings (ORE) to disentangle text embeddings, Region-Guided Blending for Cross-Attention Masking (RGB-CAM) for spatially precise attention, and Background Blending (BB) to preserve non-edited content. To quantitatively evaluate attribute leakage across various editing methods, we propose the Attribute-Leakage Evaluation Benchmark (ALE-Bench), featuring comprehensive editing scenarios and new metrics. Extensive experiments show that ALE reduces attribute leakage by large margins, thereby enabling accurate, multi-object, text-driven image editing while faithfully preserving non-target content.
- Abstract(参考訳): テキストベースの画像編集は、生成拡散モデルを利用して、ユーザーが自然言語のプロンプトで画像を修正でき、従来のワークフローを劇的に単純化した。
これらの進歩にもかかわらず、現在のメソッドは依然として重大な問題に悩まされている。属性リーク、特定のオブジェクトに対する編集が意図せず無関係な領域や他のターゲットオブジェクトに影響を及ぼす。
解析の結果,自己回帰型テキストエンコーダが生成するEOS(End-of-Sequence)埋め込みに固有の意味的絡み合いとして根本原因が明らかとなった。
この問題に対処するため,属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介した。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
各種編集手法の属性漏洩を定量的に評価するために,包括的な編集シナリオと新しいメトリクスを備えた属性漏洩評価ベンチマーク(ALE-Bench)を提案する。
大規模な実験により、ALEは属性のリークを大きなマージンで低減し、ターゲット外のコンテンツを忠実に保存しながら、正確で多目的のテキスト駆動画像編集を可能にする。
関連論文リスト
- CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。
我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。
また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文 参考訳(メタデータ) (2025-06-23T09:19:38Z) - MDE-Edit: Masked Dual-Editing for Multi-Object Image Editing via Diffusion Models [10.798205956644317]
我々は,MDE-Edit と呼ばれる複雑な多目的シーンにおいて,高精度な局所化画像操作を可能にする,トレーニング不要な推論ステージ最適化手法を提案する。
大規模な実験により、MDE-Editは、編集精度と視覚的品質において最先端の手法よりも優れており、複雑な多目的画像操作タスクに対する堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-08T10:01:14Z) - LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing [6.057289837472806]
テキスト誘導画像編集は、自然言語の指示に従って画像の特定の領域を変更することを目的としている。
クロスアテンションメカニズムは意味的関連性に重点を置いているため、画像の整合性を維持するのに苦労している。
LOCATEditを導入し、グラフベースのアプローチにより、横断アテンションマップを強化する。
論文 参考訳(メタデータ) (2025-03-27T14:32:17Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - CA-Edit: Causality-Aware Condition Adapter for High-Fidelity Local Facial Attribute Editing [41.92598830147057]
データ駆動の観点から、属性テキストトリプルからなるデータセットを構築するために、新しいデータ利用戦略が導入された。
文脈因果関係の局所的モデリングのための皮膚遷移周波数誘導手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T07:33:22Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing [3.852667054327356]
オブジェクトのフレキシブルでコントロール可能な編集フレームワークであるFlexEditを紹介します。
FlexEditブロックを使用して、各denoisingステップでレイトを反復的に調整します。
当社のフレームワークでは,デノナイズ時に自動的に抽出されるアダプティブマスクを用いて,背景の保護を行う。
論文 参考訳(メタデータ) (2024-03-27T14:24:30Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Regularizing Self-training for Unsupervised Domain Adaptation via
Structural Constraints [14.593782939242121]
本稿では,従来の自己学習目標を正規化するために,奥行きなどの補助的モーダルから構造的手がかりを取り入れることを提案する。
具体的には、オブジェクトインスタンスの近い領域内でピクセル表現をプルする、対照的なピクセルレベルのオブジェクト性制約を導入する。
セマンティックセグメンテーションのための様々な UDA ベンチマークにおいて,正則化器は最上位の自己学習手法を大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-04-29T00:12:26Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。