論文の概要: Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance
- arxiv url: http://arxiv.org/abs/2412.12974v3
- Date: Thu, 19 Dec 2024 08:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:40.908354
- Title: Attentive Eraser: Unleashing Diffusion Model's Object Removal Potential via Self-Attention Redirection Guidance
- Title(参考訳): 注意型消去装置:自己注意リダイレクト誘導による拡散モデルの物体除去電位の解放
- Authors: Wenhao Sun, Benlei Cui, Xue-Mei Dong, Jingqun Tang,
- Abstract要約: Attentive Eraser は、安定かつ効果的な物体除去のために、事前訓練された拡散モデルを強化するチューニング不要な手法である。
本稿では、自己注意機構を再設計するASS(Attention Activation and Suppression)を紹介する。
また、ASSによる自己注意リダイレクトを利用して生成プロセスのガイドを行う自己注意リダイレクトガイダンス(SARG)についても紹介する。
- 参考スコア(独自算出の注目度): 4.295971864740951
- License:
- Abstract: Recently, diffusion models have emerged as promising newcomers in the field of generative models, shining brightly in image generation. However, when employed for object removal tasks, they still encounter issues such as generating random artifacts and the incapacity to repaint foreground object areas with appropriate content after removal. To tackle these problems, we propose Attentive Eraser, a tuning-free method to empower pre-trained diffusion models for stable and effective object removal. Firstly, in light of the observation that the self-attention maps influence the structure and shape details of the generated images, we propose Attention Activation and Suppression (ASS), which re-engineers the self-attention mechanism within the pre-trained diffusion models based on the given mask, thereby prioritizing the background over the foreground object during the reverse generation process. Moreover, we introduce Self-Attention Redirection Guidance (SARG), which utilizes the self-attention redirected by ASS to guide the generation process, effectively removing foreground objects within the mask while simultaneously generating content that is both plausible and coherent. Experiments demonstrate the stability and effectiveness of Attentive Eraser in object removal across a variety of pre-trained diffusion models, outperforming even training-based methods. Furthermore, Attentive Eraser can be implemented in various diffusion model architectures and checkpoints, enabling excellent scalability. Code is available at https://github.com/Anonym0u3/AttentiveEraser.
- Abstract(参考訳): 近年、拡散モデルは、生成モデル分野において有望な新参者として登場し、画像生成において明るく輝いている。
しかし、オブジェクト除去タスクに使用する場合には、乱雑なアーティファクトの生成や、削除後の適切な内容で前景のオブジェクト領域を塗り替えることができないといった問題が発生する。
これらの問題に対処するために、安定かつ効果的な物体除去のための事前学習拡散モデルを強化する調整不要な手法であるAttentive Eraserを提案する。
まず,自己アテンションマップが生成した画像の構造や形状の細部に影響を与えることを考慮し,所定のマスクに基づいて事前学習した拡散モデル内の自己アテンション機構を再設計し,逆生成過程において前景オブジェクトの背景を優先する注意活性化抑制(ASS)を提案する。
さらに,ASSによる自己注意リダイレクトを利用した自己注意リダイレクトガイダンス(SARG)を導入し,マスク内の前景オブジェクトを効果的に除去し,信頼性と一貫性の両立したコンテンツを同時に生成する。
様々な事前学習拡散モデルにおける物体除去における注意型消去器の安定性と有効性を示す実験は、訓練ベースの方法よりも優れていた。
さらに、Attentive Eraserは様々な拡散モデルアーキテクチャやチェックポイントで実装でき、優れたスケーラビリティを実現することができる。
コードはhttps://github.com/Anonym0u3/AttentiveEraser.comで入手できる。
関連論文リスト
- Mask-guided cross-image attention for zero-shot in-silico histopathologic image generation with a diffusion model [0.10910416614141322]
拡散モデルは、シリコン内画像を生成する最先端のソリューションである。
自然画像の出現伝達拡散モデルが設計されている。
計算病理学、特に腫瘍学では、画像内のどのオブジェクトを前景と背景に分類すべきかを簡単に定義することはできない。
我々は,クラス固有のAdaIN特徴量マッチングを交互に行うために,外観伝達指導を変更することで,拡散安定画像への外観伝達モデルの適用性に寄与する。
論文 参考訳(メタデータ) (2024-07-16T12:36:26Z) - CLIPAway: Harmonizing Focused Embeddings for Removing Objects via Diffusion Models [16.58831310165623]
CLIPAwayは、CLIP埋め込みを活用して、前景要素を除外しながらバックグラウンドリージョンに集中する新しいアプローチである。
背景を優先する埋め込みを識別することで、塗装精度と品質を向上させる。
特別なトレーニングデータセットや高価な手作業によるアノテーションに依存する他の方法とは異なり、CLIPAwayは柔軟なプラグイン・アンド・プレイソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-13T17:50:28Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - All but One: Surgical Concept Erasing with Model Preservation in
Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。
これらの課題をすべて解決する新しいアプローチを提示します。
論文 参考訳(メタデータ) (2023-12-20T07:04:33Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Object-Centric Slot Diffusion [30.722428924152382]
本稿では,2つの目的を果たす新しいモデルであるLatent Slot Diffusion(LSD)を紹介する。
我々はLSDが最先端のトランスフォーマーベースのデコーダよりも大幅に優れていることを示した。
また,LSDにおける事前学習拡散モデルの統合について予備的検討を行った。
論文 参考訳(メタデータ) (2023-03-20T02:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。