Fugu-MT 論文翻訳(概要): LIME: Localized Image Editing via Attention Regularization in Diffusion Models

論文の概要: LIME: Localized Image Editing via Attention Regularization in Diffusion Models

arxiv url: http://arxiv.org/abs/2312.09256v1
Date: Thu, 14 Dec 2023 18:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 20:18:24.214458
Title: LIME: Localized Image Editing via Attention Regularization in Diffusion Models
Title（参考訳）: LIME:拡散モデルにおける注意規則化による局所画像編集
Authors: Enis Simsar and Alessio Tonioni and Yongqin Xian and Thomas Hofmann and Federico Tombari
Abstract要約: 本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
参考スコア（独自算出の注目度）: 74.3811832586391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models (DMs) have gained prominence due to their ability to generate high-quality, varied images, with recent advancements in text-to-image generation. The research focus is now shifting towards the controllability of DMs. A significant challenge within this domain is localized editing, where specific areas of an image are modified without affecting the rest of the content. This paper introduces LIME for localized image editing in diffusion models that do not require user-specified regions of interest (RoI) or additional text input. Our method employs features from pre-trained methods and a simple clustering technique to obtain precise semantic segmentation maps. Then, by leveraging cross-attention maps, it refines these segments for localized edits. Finally, we propose a novel cross-attention regularization technique that penalizes unrelated cross-attention scores in the RoI during the denoising steps, ensuring localized edits. Our approach, without re-training and fine-tuning, consistently improves the performance of existing methods in various editing benchmarks.
Abstract（参考訳）: 拡散モデル(DM)は,テキスト・画像生成の進歩とともに,高品質で多様な画像を生成する能力によって注目されている。研究の焦点はdmsの制御可能性に移り変わりつつある。この領域における重要な課題はローカライズ編集であり、画像の特定の領域はコンテンツの他の部分に影響を与えずに変更される。本稿では,ユーザ特定領域(roi)や追加テキスト入力を必要としない拡散モデルにおける局所画像編集のためのlimeを提案する。本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。次に、クロスアテンションマップを利用することで、これらのセグメントを局所的な編集のために洗練する。最後に,特定段階におけるRoIの非関係な相互注意スコアをペナライズし,局所的な編集を確実にするクロスアテンション正規化手法を提案する。提案手法は,再学習や微調整を伴わずに,様々な編集ベンチマークにおける既存手法の性能を継続的に改善する。

関連論文リスト

LOCATEdit: Graph Laplacian Optimized Cross Attention for Localized Text-Guided Image Editing [6.057289837472806]
テキスト誘導画像編集は、自然言語の指示に従って画像の特定の領域を変更することを目的としている。クロスアテンションメカニズムは意味的関連性に重点を置いているため、画像の整合性を維持するのに苦労している。 LOCATEditを導入し、グラフベースのアプローチにより、横断アテンションマップを強化する。
論文参考訳（メタデータ） (2025-03-27T14:32:17Z)
EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文参考訳（メタデータ） (2024-12-05T02:05:33Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文参考訳（メタデータ） (2024-05-24T07:53:59Z)
LocInv: Localization-aware Inversion for Text-Guided Image Editing [17.611103794346857]
テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更して生成した画像を操作できるようにすることを目的としている。既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。そこで我々は, セグメンテーションマップやバウンディングボックスを付加的なローカライゼーションとして活用して, クロスアテンションマップを改良するローカライゼーション対応インバージョン(LocInv)を提案する。
論文参考訳（メタデータ） (2024-05-02T17:27:04Z)
Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文参考訳（メタデータ） (2024-03-06T03:32:56Z)
BARET : Balanced Attention based Real image Editing driven by Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。 I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文参考訳（メタデータ） (2023-12-09T07:18:23Z)
Learning with Multi-modal Gradient Attention for Explainable Composed Image Retrieval [15.24270990274781]
そこで本研究では,各検索ステップで修正される関心領域に,モデルに明示的に集中するよう強制する,グラディショナル・アテンションに基づく新たな学習目標を提案する。我々は,MMGradをエンド・ツー・エンドのモデルトレーニング戦略に組み込む方法を示し,これらのMMGradアテンションマップに修正文に対応する適切な局所領域の強調を強制する新たな学習目標を示す。
論文参考訳（メタデータ） (2023-08-31T11:46:27Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文参考訳（メタデータ） (2023-02-23T06:20:29Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。