論文の概要: Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts
- arxiv url: http://arxiv.org/abs/2403.12326v3
- Date: Mon, 17 Feb 2025 00:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 17:34:12.093166
- Title: Hiding and Recovering Knowledge in Text-to-Image Diffusion Models via Learnable Prompts
- Title(参考訳): 学習可能なプロンプトによるテキスト・画像拡散モデルにおける知識の保持と回復
- Authors: Anh Bui, Khanh Doan, Trung Le, Paul Montague, Tamas Abraham, Dinh Phung,
- Abstract要約: 我々は、望ましくない概念を公開ユーザにとってアクセスし難いものにする、新しいコンセプトハイディングアプローチを導入する。
モデルから知識を完全に消去する代わりに、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 望ましくないコンテンツが簡単に生成されないようにし、再保存するオプションを保持します。
- 参考スコア(独自算出の注目度): 23.04942433104886
- License:
- Abstract: Diffusion models have demonstrated remarkable capability in generating high-quality visual content from textual descriptions. However, since these models are trained on large-scale internet data, they inevitably learn undesirable concepts, such as sensitive content, copyrighted material, and harmful or unethical elements. While previous works focus on permanently removing such concepts, this approach is often impractical, as it can degrade model performance and lead to irreversible loss of information. In this work, we introduce a novel concept-hiding approach that makes unwanted concepts inaccessible to public users while allowing controlled recovery when needed. Instead of erasing knowledge from the model entirely, we incorporate a learnable prompt into the cross-attention module, acting as a secure memory that suppresses the generation of hidden concepts unless a secret key is provided. This enables flexible access control -- ensuring that undesirable content cannot be easily generated while preserving the option to reinstate it under restricted conditions. Our method introduces a new paradigm where concept suppression and controlled recovery coexist, which was not feasible in prior works. We validate its effectiveness on the Stable Diffusion model, demonstrating that hiding concepts mitigate the risks of permanent removal while maintaining the model's overall capability.
- Abstract(参考訳): 拡散モデルは、テキスト記述から高品質な視覚コンテンツを生成する際、顕著な能力を示した。
しかし、これらのモデルは大規模なインターネットデータに基づいて訓練されているため、機密性のあるコンテンツ、著作権のある材料、有害または非倫理的な要素など、必然的に望ましくない概念を学習する。
従来の研究はそのような概念を永久に取り除くことに重点を置いていたが、このアプローチはモデルの性能を低下させ、情報の不可逆的な損失をもたらすため、しばしば実践的ではない。
本研究では,不要な概念をパブリックユーザにとってアクセスしにくくすると同時に,必要に応じて制御されたリカバリを可能にする,新しいコンセプトハイディング手法を提案する。
モデルから完全に知識を消去する代わりに、秘密鍵が提供されない限り隠れた概念の生成を抑制するセキュアなメモリとして機能し、学習可能なプロンプトをクロスアテンションモジュールに組み込む。
これにより、フレキシブルなアクセス制御が可能になります -- 制限された条件下で再保存するオプションを維持しながら、望ましくないコンテンツを簡単に生成できないようにします。
提案手法では,従来の作業では実現不可能な,概念抑制と制御されたリカバリが共存する新たなパラダイムを導入する。
本研究では, 安定拡散モデルの有効性を検証し, モデル全体の性能を維持しながら, 隠蔽概念が永久的除去のリスクを軽減することを示した。
関連論文リスト
- SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
スパースオートエンコーダによって学習された特徴を活用する新しい手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation [22.3077678575067]
拡散モデルは、テキストから視覚的に印象的なコンテンツを生成するのに優れています。
本稿では,パラメータ変化によって最も影響を受ける概念を同定し,保存することを提案する。
安定拡散モデルを用いて本手法の有効性を実証し, 不要なコンテンツの除去において, 最先端の消去方法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-21T03:40:29Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - All but One: Surgical Concept Erasing with Model Preservation in
Text-to-Image Diffusion Models [22.60023885544265]
大規模なデータセットには、性的に明示的な、著作権のある、または望ましくないコンテンツが含まれており、モデルがそれらを直接生成することができる。
拡散モデルにおける概念消去に取り組むために、ファインチューニングアルゴリズムが開発された。
これらの課題をすべて解決する新しいアプローチを提示します。
論文 参考訳(メタデータ) (2023-12-20T07:04:33Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models [79.50701155336198]
textbfForget-Me-Notは、適切に設定されたテキスト・ツー・イメージモデルから、指定されたID、オブジェクト、スタイルを30秒で安全に削除するように設計されている。
我々は,Forget-Me-Notが,モデルの性能を他の概念に保ちながら,ターゲットとなる概念を効果的に排除できることを実証した。
また、Stable Diffusionの軽量モデルパッチとして適応することができ、コンセプト操作と便利な配布を可能にしている。
論文 参考訳(メタデータ) (2023-03-30T17:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。