論文の概要: On the Vulnerability of Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2502.17537v1
- Date: Mon, 24 Feb 2025 17:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:28.030555
- Title: On the Vulnerability of Concept Erasure in Diffusion Models
- Title(参考訳): 拡散モデルにおける概念消去の脆弱性について
- Authors: Lucas Beerens, Alex D. Richardson, Kaicheng Zhang, Dongdong Chen,
- Abstract要約: マシン・アンラーニングの研究は、ホック後のトレーニングを通じて不要なデータの影響を除去することを目的とした、様々な概念消去手法を開発した。
これらの消去技術は脆弱であり、敵に製作されたプロンプトを用いて、消去されたとされる概念のイメージを生成可能であることを示す。
本稿では, 削除コンテンツの生成を誘導できるプロンプトを検出するアルゴリズムであるRECORDを紹介する。
- 参考スコア(独自算出の注目度): 13.916443687966039
- License:
- Abstract: The proliferation of text-to-image diffusion models has raised significant privacy and security concerns, particularly regarding the generation of copyrighted or harmful images. To address these issues, research on machine unlearning has developed various concept erasure methods, which aim to remove the effect of unwanted data through post-hoc training. However, we show these erasure techniques are vulnerable, where images of supposedly erased concepts can still be generated using adversarially crafted prompts. We introduce RECORD, a coordinate-descent-based algorithm that discovers prompts capable of eliciting the generation of erased content. We demonstrate that RECORD significantly beats the attack success rate of current state-of-the-art attack methods. Furthermore, our findings reveal that models subjected to concept erasure are more susceptible to adversarial attacks than previously anticipated, highlighting the urgency for more robust unlearning approaches. We open source all our code at https://github.com/LucasBeerens/RECORD
- Abstract(参考訳): テキストから画像への拡散モデルの普及は、特に著作権や有害な画像の生成に関して、重要なプライバシーとセキュリティ上の懸念を引き起こしている。
これらの課題に対処するため, 機械学習研究は, ポストホックトレーニングによる不要データの影響を除去することを目的とした, 様々な概念消去手法を開発した。
しかし,これら消去技術は脆弱であり,敵に製作されたプロンプトを用いて,消去されたとされる概念の画像を生成することが可能であることを示す。
本稿では, 削除コンテンツの生成を誘導できるプロンプトを検出するアルゴリズムであるRECORDを紹介する。
我々はRECORDが現在の最先端攻撃手法の攻撃成功率を大幅に上回ることを示した。
さらに, 概念消去の対象となったモデルは, 従来予想されていたよりも敵攻撃の影響を受けやすく, より堅牢な未学習アプローチの緊急性を強調した。
私たちはすべてのコードをhttps://github.com/LucasBeerens/RECORDでオープンソースにしています。
関連論文リスト
- TraSCE: Trajectory Steering for Concept Erasure [16.752023123940674]
テキスト・ツー・イメージ拡散モデルでは,NSFW(No-safe-for-work)画像のような有害なコンテンツを生成することが示されている。
本稿では, 拡散経路を有害な物質の発生から遠ざけるためのTraSCEを提案する。
論文 参考訳(メタデータ) (2024-12-10T16:45:03Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Rethinking and Defending Protective Perturbation in Personalized Diffusion Models [21.30373461975769]
パーソナライズされた拡散モデル(PDM)の微調整過程について,ショートカット学習のレンズを用いて検討した。
PDMは小さな逆境の摂動に影響を受けやすいため、破損したデータセットを微調整すると著しく劣化する。
本稿では,データ浄化と対照的なデカップリング学習を含むシステム防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-27T07:14:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。
暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。
拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文 参考訳(メタデータ) (2024-03-17T01:27:00Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Generative Model-Based Attack on Learnable Image Encryption for
Privacy-Preserving Deep Learning [14.505867475659276]
本稿では,プライバシ保護深層学習のための学習可能な画像暗号化手法に対する,新たな生成モデルに基づく攻撃を提案する。
我々は、StyleGANベースモデルと潜伏拡散ベースモデルという、最先端の2つの生成モデルを使用している。
その結果,提案手法により再構成された画像は,通常の画像と知覚的に類似していることがわかった。
論文 参考訳(メタデータ) (2023-03-09T05:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。