論文の概要: On the Vulnerability of Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.17537v2
- Date: Mon, 19 May 2025 18:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.825587
- Title: On the Vulnerability of Concept Erasure in Diffusion Models
- Title(参考訳): 拡散モデルにおける概念消去の脆弱性について
- Authors: Lucas Beerens, Alex D. Richardson, Kaicheng Zhang, Dongdong Chen,
- Abstract要約: Recordは、シードから独立して消去された概念を復元する逆方向のプロンプトを見つける座標日光に基づく復元アルゴリズムである。
本研究では,RECORDを最大17.8倍に向上させる実験を行った。
- 参考スコア(独自算出の注目度): 13.916443687966039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of text-to-image diffusion models has raised significant privacy and security concerns, particularly regarding the generation of copyrighted or harmful images. In response, several concept erasure (defense) methods have been developed to prevent the generation of unwanted content through post-hoc finetuning. On the other hand, concept restoration (attack) methods seek to recover supposedly erased concepts via adversarially crafted prompts. However, all existing restoration methods only succeed in the highly restrictive scenario of finding adversarial prompts tailed to some fixed seed. To address this, we introduce RECORD, a novel coordinate-descent-based restoration algorithm that finds adversarial prompts to recover erased concepts independently of the seed. Our extensive experiments demonstrate RECORD consistently outperforms the current restoration methods by up to 17.8 times in this setting. Our findings further reveal the susceptibility of unlearned models to restoration attacks, providing crucial insights into the behavior of unlearned models under the influence of adversarial prompts.
- Abstract(参考訳): テキストから画像への拡散モデルの普及は、特に著作権や有害な画像の生成に関して、重要なプライバシーとセキュリティ上の懸念を引き起こしている。
これに対し, ポストホックファインタニングによる不要なコンテンツの生成を防止するため, いくつかの概念消去法が開発されている。
一方、概念復元(アタック)手法は、敵に造られたプロンプトによって消去されたとされる概念を復元しようとする。
しかし、既存の修復方法は、いくつかの固定された種子に類似した敵のプロンプトを見つけるという非常に制限的なシナリオにしか成功しない。
これを解決するために,RECORDを導入する。RECORDは,シードとは独立に消去された概念を復元する逆方向のプロンプトを探索する,座標の老化に基づく新しい復元アルゴリズムである。
我々は,RECORDを最大17.8倍の精度で再現する実験を行った。
本研究は,非学習モデルが攻撃を回復する可能性をさらに明らかにし,非学習モデルの行動に関する重要な知見を提供するものである。
関連論文リスト
- Erased but Not Forgotten: How Backdoors Compromise Concept Erasure [36.056298969999645]
我々は、新しい脅威モデル、Toxic Erasure(ToxE)を導入し、最近の未学習アルゴリズムがターゲットのバックドア攻撃によってどのように回避できるかを実証する。
明示的な内容の消去のために、ToxE攻撃は最大9倍の露出した身体部位を誘発し、disAは2.9倍の平均的な増加をもたらす。
論文 参考訳(メタデータ) (2025-04-29T16:13:06Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - TraSCE: Trajectory Steering for Concept Erasure [16.752023123940674]
テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。
本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:45:03Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now [22.75295925610285]
拡散モデル(DM)は、現実的で複雑な画像の生成に革命をもたらした。
DMはまた、有害なコンテンツの生成やデータ著作権の侵害など、潜在的な安全上の危険性も導入している。
安全駆動の未学習技術の発展にもかかわらず、その有効性に対する疑念は続いている。
論文 参考訳(メタデータ) (2023-10-18T10:36:34Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Generative Model-Based Attack on Learnable Image Encryption for
Privacy-Preserving Deep Learning [14.505867475659276]
本稿では,プライバシ保護深層学習のための学習可能な画像暗号化手法に対する,新たな生成モデルに基づく攻撃を提案する。
我々は、StyleGANベースモデルと潜伏拡散ベースモデルという、最先端の2つの生成モデルを使用している。
その結果,提案手法により再構成された画像は,通常の画像と知覚的に類似していることがわかった。
論文 参考訳(メタデータ) (2023-03-09T05:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。