論文の概要: Rethinking the Vulnerability of Concept Erasure and a New Method
- arxiv url: http://arxiv.org/abs/2502.17537v3
- Date: Fri, 03 Oct 2025 13:39:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.688238
- Title: Rethinking the Vulnerability of Concept Erasure and a New Method
- Title(参考訳): 概念消去の脆弱性再考と新しい方法
- Authors: Alex D. Richardson, Kaicheng Zhang, Lucas Beerens, Dongdong Chen,
- Abstract要約: 概念消去 (defense) 法は、ポストホック微調整によって特定の概念を「未学習」するために開発された。
最近の概念復元(アタック)手法は、これら消去されたと思われる概念を、逆向きのプロンプトで復元できることを実証している。
本稿では,従来の修復手法を最大17.8倍に向上させる新しい座標descentベースの復元アルゴリズムである**RECORD*を紹介する。
- 参考スコア(独自算出の注目度): 9.044763606650646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of text-to-image diffusion models has raised significant privacy and security concerns, particularly regarding the generation of copyrighted or harmful images. In response, concept erasure (defense) methods have been developed to "unlearn" specific concepts through post-hoc finetuning. However, recent concept restoration (attack) methods have demonstrated that these supposedly erased concepts can be recovered using adversarially crafted prompts, revealing a critical vulnerability in current defense mechanisms. In this work, we first investigate the fundamental sources of adversarial vulnerability and reveal that vulnerabilities are pervasive in the prompt embedding space of concept-erased models, a characteristic inherited from the original pre-unlearned model. Furthermore, we introduce **RECORD**, a novel coordinate-descent-based restoration algorithm that consistently outperforms existing restoration methods by up to 17.8 times. We conduct extensive experiments to assess its compute-performance tradeoff and propose acceleration strategies.
- Abstract(参考訳): テキストから画像への拡散モデルの普及は、特に著作権や有害な画像の生成に関して、重要なプライバシーとセキュリティ上の懸念を引き起こしている。
これに対し、概念消去(ディフェンス)法は、ポストホックファインタニングによって特定の概念を「未学習」するために開発された。
しかし、最近の概念復元(アタック)手法は、これら消去されたと思われる概念を敵に作られたプロンプトで回収できることを示し、現在の防御機構に重大な脆弱性があることを明らかにしている。
本研究は,まず,従来の未学習モデルから受け継いだ特徴である,概念退化モデルの迅速な埋め込み空間において,脆弱性が広範に存在することを明らかにする。
さらに, 従来の復元手法を最大17.8倍に向上させる, 座標差に基づく新しい復元アルゴリズムである **RECORD* を導入する。
計算性能のトレードオフを評価するための広範な実験を行い、加速戦略を提案する。
関連論文リスト
- Erased or Dormant? Rethinking Concept Erasure Through Reversibility [8.454050090398713]
我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-22T03:26:46Z) - Erased but Not Forgotten: How Backdoors Compromise Concept Erasure [36.056298969999645]
我々は、新しい脅威モデル、Toxic Erasure(ToxE)を導入し、最近の未学習アルゴリズムがターゲットのバックドア攻撃によってどのように回避できるかを実証する。
明示的な内容の消去のために、ToxE攻撃は最大9倍の露出した身体部位を誘発し、disAは2.9倍の平均的な増加をもたらす。
論文 参考訳(メタデータ) (2025-04-29T16:13:06Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - TraSCE: Trajectory Steering for Concept Erasure [16.752023123940674]
テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。
本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:45:03Z) - Towards Lifelong Few-Shot Customization of Text-to-Image Diffusion [50.26583654615212]
テキストと画像の拡散のための一生にわたる数ショットのカスタマイズは、最小限のデータで新しいタスクのための既存のモデルを継続的に一般化することを目的としている。
本研究では,破滅的な忘れる問題を,関連する概念と過去の概念の2つに分類し,分類する。
実データの追加やオリジナルの概念データのオフライン再生に頼っている既存の方法とは異なり,本手法では,新しい概念を学習しながら,事前知識の蒸留を行うことが可能である。
論文 参考訳(メタデータ) (2024-11-08T12:58:48Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Pruning for Robust Concept Erasing in Diffusion Models [27.67237515704348]
概念消去のための新しいプルーニングベースの戦略を導入する。
本手法は, 除去対象概念に関連する重要なパラメータを選択的に抽出し, 概念関連ニューロンの感度を低下させる。
実験の結果, 逆入力に抵抗するモデルの能力は著しく向上した。
論文 参考訳(メタデータ) (2024-05-26T11:42:20Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers [24.64639078273091]
テキストから画像への拡散モデルにおける概念消去は、対象概念に関連する画像の生成から事前学習された拡散モデルを無効にすることを目的としている。
軽量エローザ(レセラー)による信頼性概念消去の提案
論文 参考訳(メタデータ) (2023-11-29T15:19:49Z) - To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now [22.75295925610285]
拡散モデル(DM)は、現実的で複雑な画像の生成に革命をもたらした。
DMはまた、有害なコンテンツの生成やデータ著作権の侵害など、潜在的な安全上の危険性も導入している。
安全駆動の未学習技術の発展にもかかわらず、その有効性に対する疑念は続いている。
論文 参考訳(メタデータ) (2023-10-18T10:36:34Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Generative Model-Based Attack on Learnable Image Encryption for
Privacy-Preserving Deep Learning [14.505867475659276]
本稿では,プライバシ保護深層学習のための学習可能な画像暗号化手法に対する,新たな生成モデルに基づく攻撃を提案する。
我々は、StyleGANベースモデルと潜伏拡散ベースモデルという、最先端の2つの生成モデルを使用している。
その結果,提案手法により再構成された画像は,通常の画像と知覚的に類似していることがわかった。
論文 参考訳(メタデータ) (2023-03-09T05:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。