論文の概要: LIME: Localized Image Editing via Attention Regularization in Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.09256v1
- Date: Thu, 14 Dec 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:18:24.214458
- Title: LIME: Localized Image Editing via Attention Regularization in Diffusion
Models
- Title(参考訳): LIME:拡散モデルにおける注意規則化による局所画像編集
- Authors: Enis Simsar and Alessio Tonioni and Yongqin Xian and Thomas Hofmann
and Federico Tombari
- Abstract要約: 本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
- 参考スコア(独自算出の注目度): 74.3811832586391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models (DMs) have gained prominence due to their ability to
generate high-quality, varied images, with recent advancements in text-to-image
generation. The research focus is now shifting towards the controllability of
DMs. A significant challenge within this domain is localized editing, where
specific areas of an image are modified without affecting the rest of the
content. This paper introduces LIME for localized image editing in diffusion
models that do not require user-specified regions of interest (RoI) or
additional text input. Our method employs features from pre-trained methods and
a simple clustering technique to obtain precise semantic segmentation maps.
Then, by leveraging cross-attention maps, it refines these segments for
localized edits. Finally, we propose a novel cross-attention regularization
technique that penalizes unrelated cross-attention scores in the RoI during the
denoising steps, ensuring localized edits. Our approach, without re-training
and fine-tuning, consistently improves the performance of existing methods in
various editing benchmarks.
- Abstract(参考訳): 拡散モデル(DM)は,テキスト・画像生成の進歩とともに,高品質で多様な画像を生成する能力によって注目されている。
研究の焦点はdmsの制御可能性に移り変わりつつある。
この領域における重要な課題はローカライズ編集であり、画像の特定の領域はコンテンツの他の部分に影響を与えずに変更される。
本稿では,ユーザ特定領域(roi)や追加テキスト入力を必要としない拡散モデルにおける局所画像編集のためのlimeを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
次に、クロスアテンションマップを利用することで、これらのセグメントを局所的な編集のために洗練する。
最後に,特定段階におけるRoIの非関係な相互注意スコアをペナライズし,局所的な編集を確実にするクロスアテンション正規化手法を提案する。
提案手法は,再学習や微調整を伴わずに,様々な編集ベンチマークにおける既存手法の性能を継続的に改善する。
関連論文リスト
- Vision-guided and Mask-enhanced Adaptive Denoising for Prompt-based Image Editing [67.96788532285649]
視覚誘導・マスク強調適応編集法(ViMAEdit)を提案する。
まず,画像の埋め込みを明示的なガイダンスとして活用し,従来のテキストのプロンプトに基づく記述プロセスを強化することを提案する。
第2に,自己注意型反復編集領域接地戦略を考案する。
論文 参考訳(メタデータ) (2024-10-14T13:41:37Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - LocInv: Localization-aware Inversion for Text-Guided Image Editing [17.611103794346857]
テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更して生成した画像を操作できるようにすることを目的としている。
既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。
そこで我々は, セグメンテーションマップやバウンディングボックスを付加的なローカライゼーションとして活用して, クロスアテンションマップを改良するローカライゼーション対応インバージョン(LocInv)を提案する。
論文 参考訳(メタデータ) (2024-05-02T17:27:04Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Learning with Multi-modal Gradient Attention for Explainable Composed
Image Retrieval [15.24270990274781]
そこで本研究では,各検索ステップで修正される関心領域に,モデルに明示的に集中するよう強制する,グラディショナル・アテンションに基づく新たな学習目標を提案する。
我々は,MMGradをエンド・ツー・エンドのモデルトレーニング戦略に組み込む方法を示し,これらのMMGradアテンションマップに修正文に対応する適切な局所領域の強調を強制する新たな学習目標を示す。
論文 参考訳(メタデータ) (2023-08-31T11:46:27Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。