Fugu-MT 論文翻訳(概要): Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models

論文の概要: Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2407.12383v2
Date: Mon, 28 Oct 2024 13:05:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 20:36:48.567381
Title: Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルの信頼性と効率的な概念消去
Authors: Chao Gong, Kai Chen, Zhipeng Wei, Jingjing Chen, Yu-Gang Jiang,
Abstract要約: 本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
参考スコア（独自算出の注目度）: 76.39651111467832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image models encounter safety issues, including concerns related to copyright and Not-Safe-For-Work (NSFW) content. Despite several methods have been proposed for erasing inappropriate concepts from diffusion models, they often exhibit incomplete erasure, consume a lot of computing resources, and inadvertently damage generation ability. In this work, we introduce Reliable and Efficient Concept Erasure (RECE), a novel approach that modifies the model in 3 seconds without necessitating additional fine-tuning. Specifically, RECE efficiently leverages a closed-form solution to derive new target embeddings, which are capable of regenerating erased concepts within the unlearned model. To mitigate inappropriate content potentially represented by derived embeddings, RECE further aligns them with harmless concepts in cross-attention layers. The derivation and erasure of new representation embeddings are conducted iteratively to achieve a thorough erasure of inappropriate concepts. Besides, to preserve the model's generation ability, RECE introduces an additional regularization term during the derivation process, resulting in minimizing the impact on unrelated concepts during the erasure process. All the processes above are in closed-form, guaranteeing extremely efficient erasure in only 3 seconds. Benchmarking against previous approaches, our method achieves more efficient and thorough erasure with minor damage to original generation ability and demonstrates enhanced robustness against red-teaming tools. Code is available at \url{https://github.com/CharlesGong12/RECE}.
Abstract（参考訳）: テキスト・ツー・イメージのモデルは、著作権やNSFW(Not-Safe-For-Work)コンテンツに関する懸念など、安全上の問題に直面する。拡散モデルから不適切な概念を消去するいくつかの方法が提案されているが、しばしば不完全な消去を示し、多くの計算資源を消費し、不注意に損傷を発生させる能力を示す。本稿では,3秒でモデルを変更する新しい手法であるReliable and Efficient Concept Erasure (RECE)を紹介する。具体的には、RECEは、未学習モデル内で消去された概念を再生できる新しいターゲット埋め込みを導出するために、クローズドフォームソリューションを効率的に活用する。派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。さらに、モデルの生成能力を維持するため、RECEは導出プロセス中に追加の正規化項を導入し、消去プロセスにおける無関係な概念への影響を最小限にする。上記のプロセスはすべてクローズド形式で、非常に効率的な消去をわずか3秒で保証します。従来の手法と比較して,本手法は生成能力に小さなダメージを与えることなく,より効率的かつ徹底的な消去を実現し,レッドチームツールに対する堅牢性の向上を実証する。コードは \url{https://github.com/CharlesGong12/RECE} で入手できる。

関連論文リスト

CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-08T05:38:18Z)
Closing the Safety Gap: Surgical Concept Erasure in Visual Autoregressive Models [48.34555526275907]
本稿では,視覚的自己回帰モデルにおける概念消去を安定させる新しいフレームワークVAREを提案する。次に、VAR用に設計された新規かつ効果的な概念消去手法であるS-VAREを紹介する。提案手法は,生成品質を保ちながら外科的概念の消去を実現し,自動回帰テキスト・画像生成における安全性のギャップを埋める。
論文参考訳（メタデータ） (2025-09-26T14:26:52Z)
VCE: Safe Autoregressive Image Generation via Visual Contrast Exploitation [57.36681904639463]
自己回帰的テキスト・画像モデルを保護する方法はまだ未検討のままである。コンテンツセマンティクスから安全でない概念を正確に分離する新しいフレームワークであるVisual Contrast Exploitation (VCE)を提案する。提案手法は,安全でない概念を消去し,無関係な概念の整合性を保ちながら,最先端の成果を効果的に確保できることを実証する。
論文参考訳（メタデータ） (2025-09-21T09:00:27Z)
Robust Concept Erasure in Diffusion Models: A Theoretical Perspective on Security and Robustness [4.23067546195708]
textbfSCORE (Secure and Concept-Oriented Robust Erasure)は拡散モデルにおけるロバストな概念除去のための新しいフレームワークである。 SCOREは拡散モデルにおける安全で堅牢な概念消去のための新しい標準を定めている。
論文参考訳（メタデータ） (2025-09-15T15:05:50Z)
FADE: Adversarial Concept Erasure in Flow Models [4.774890908509861]
テキストから画像への拡散モデルのための新しいtextbfconcept消去法を提案する。提案手法は,軌道認識型微調整戦略と,その概念を確実に取り除くための対向的目的を組み合わせたものである。提案手法は, 消去された概念とモデル出力との相互情報を最小化する。
論文参考訳（メタデータ） (2025-07-16T14:31:21Z)
TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。 Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。 TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文参考訳（メタデータ） (2025-05-29T10:15:22Z)
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [6.738409533239947]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。 CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文参考訳（メタデータ） (2025-05-19T03:53:06Z)
SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [41.284399182295026]
モデル編集に基づく概念消去手法であるSPEEDを導入する。 SPEEDは、効率的かつ高忠実な概念消去を達成しつつ、保存前の既存の手法を一貫して上回っている。
論文参考訳（メタデータ） (2025-03-10T14:40:01Z)
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文参考訳（メタデータ） (2025-03-10T14:37:53Z)
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文参考訳（メタデータ） (2025-01-02T07:47:34Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation [22.3077678575067]
拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-21T03:40:29Z)
EIUP: A Training-Free Approach to Erase Non-Compliant Concepts Conditioned on Implicit Unsafe Prompts [32.590822043053734]
非有毒なテキストは、暗黙の安全でないプロンプトと呼ばれる非準拠のイメージを生成するリスクを伴っている。我々は、非準拠の概念を消去プロンプトに組み込む、単純で効果的なアプローチを提案する。本手法は,画像の忠実度を高いスコアで評価しながら,優れた消去効果を示す。
論文参考訳（メタデータ） (2024-08-02T05:17:14Z)
Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文参考訳（メタデータ） (2024-05-26T11:42:20Z)
Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts [23.04942433104886]
我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
論文参考訳（メタデータ） (2024-03-18T23:42:04Z)
Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-02-03T11:10:57Z)
All but One: Surgical Concept Erasing with Model Preservation in Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。これらの課題をすべて解決する新しいアプローチを提示します。
論文参考訳（メタデータ） (2023-12-20T07:04:33Z)
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文参考訳（メタデータ） (2023-10-16T02:11:20Z)
Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文参考訳（メタデータ） (2023-07-12T07:48:29Z)
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文参考訳（メタデータ） (2023-03-30T17:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。