論文の概要: Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance
- arxiv url: http://arxiv.org/abs/2412.12974v4
- Date: Tue, 11 Mar 2025 07:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 16:15:12.085395
- Title: Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance
- Title(参考訳): 注意型消去装置:自己注意リダイレクト誘導による拡散モデルの物体除去電位の解放
- Authors: Wenhao Sun, Benlei Cui, Xue-Mei Dong, Jingqun Tang, Yi Liu,
- Abstract要約: Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
- 参考スコア(独自算出の注目度): 6.249195110289606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion models have emerged as promising newcomers in the field of generative models, shining brightly in image generation. However, when employed for object removal tasks, they still encounter issues such as generating random artifacts and the incapacity to repaint foreground object areas with appropriate content after removal. To tackle these problems, we propose Attentive Eraser, a tuning-free method to empower pre-trained diffusion models for stable and effective object removal. Firstly, in light of the observation that the self-attention maps influence the structure and shape details of the generated images, we propose Attention Activation and Suppression (ASS), which re-engineers the self-attention mechanism within the pre-trained diffusion models based on the given mask, thereby prioritizing the background over the foreground object during the reverse generation process. Moreover, we introduce Self-Attention Redirection Guidance (SARG), which utilizes the self-attention redirected by ASS to guide the generation process, effectively removing foreground objects within the mask while simultaneously generating content that is both plausible and coherent. Experiments demonstrate the stability and effectiveness of Attentive Eraser in object removal across a variety of pre-trained diffusion models, outperforming even training-based methods. Furthermore, Attentive Eraser can be implemented in various diffusion model architectures and checkpoints, enabling excellent scalability. Code is available at https://github.com/Anonym0u3/AttentiveEraser.
- Abstract(参考訳): 近年、拡散モデルは、生成モデル分野において有望な新参者として登場し、画像生成において明るく輝いている。
しかし、オブジェクト除去タスクに使用する場合には、乱雑なアーティファクトの生成や、削除後の適切な内容で前景のオブジェクト領域を塗り替えることができないといった問題が発生する。
これらの問題に対処するために、安定かつ効果的な物体除去のための事前学習拡散モデルを強化する調整不要な手法であるAttentive Eraserを提案する。
まず,自己アテンションマップが生成した画像の構造や形状の細部に影響を与えることを考慮し,所定のマスクに基づいて事前学習した拡散モデル内の自己アテンション機構を再設計し,逆生成過程において前景オブジェクトの背景を優先する注意活性化抑制(ASS)を提案する。
さらに,ASSによる自己注意リダイレクトを利用した自己注意リダイレクトガイダンス(SARG)を導入し,マスク内の前景オブジェクトを効果的に除去し,信頼性と一貫性の両立したコンテンツを同時に生成する。
様々な事前学習拡散モデルにおける物体除去における注意型消去器の安定性と有効性を示す実験は、訓練ベースの方法よりも優れていた。
さらに、Attentive Eraserは様々な拡散モデルアーキテクチャやチェックポイントで実装でき、優れたスケーラビリティを実現することができる。
コードはhttps://github.com/Anonym0u3/AttentiveEraser.comで入手できる。
関連論文リスト
- Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Erase Diffusion: Empowering Object Removal Through Calibrating Diffusion Pathways [13.08168394252538]
Erase inpaintingは、周囲のコンテンツの全体的な一貫性を維持しながら、マスクされた領域内でターゲットオブジェクトを正確に除去することを目的としている。
オブジェクト除去の文脈において,標準拡散の潜在的なパワーを解放することを目的として,Eraase Diffusionと呼ばれる新しいEraase Diffusionを提案する。
提案したEraDiffは,OpenImages V5データセットの最先端性能を実現し,実世界のシナリオにおいて大きな優位性を示す。
論文 参考訳(メタデータ) (2025-03-10T08:06:51Z) - One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。
われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。
本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T07:47:27Z) - ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
連続的な視覚生成には、フルシーケンスの拡散に基づくアプローチが必要である。
本稿では,自己回帰的ブロックワイド条件拡散変換器ACDiTを提案する。
本稿では,拡散目標を訓練しながら,視覚理解タスクにACDiTをシームレスに使用できることを実証する。
論文 参考訳(メタデータ) (2024-12-10T18:13:20Z) - Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models [16.58831310165623]
CLIPAwayは、CLIP埋め込みを活用して、前景要素を除外しながらバックグラウンドリージョンに集中する新しいアプローチである。
背景を優先する埋め込みを識別することで、塗装精度と品質を向上させる。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは柔軟なプラグイン・アンド・プレイソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-13T17:50:28Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。