論文の概要: Rethinking Robust Adversarial Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.27285v2
- Date: Sat, 08 Nov 2025 05:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.372783
- Title: Rethinking Robust Adversarial Concept Erasure in Diffusion Models
- Title(参考訳): 拡散モデルにおけるロバスト反転概念消去の再考
- Authors: Qinghong Yin, Yu Tian, Heming Yang, Xiang Chen, Xianlin Zhang, Xueming Li, Yue Zhan,
- Abstract要約: 概念消去は、拡散モデル(DM)における望ましくないコンテンツを選択的に学習し、センシティブなコンテンツ生成のリスクを低減することを目的としている。
既存のほとんどの手法では、ターゲット概念を識別し、抑制するために敵の訓練を施しているため、機密出力の可能性が低下する。
我々は,S-GRACEを導入し,S-GRACEは概念空間のセマンティックガイダンスを利用して,敵のサンプルを生成し,消去訓練を行う。
- 参考スコア(独自算出の注目度): 13.578420382949828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept erasure aims to selectively unlearning undesirable content in diffusion models (DMs) to reduce the risk of sensitive content generation. As a novel paradigm in concept erasure, most existing methods employ adversarial training to identify and suppress target concepts, thus reducing the likelihood of sensitive outputs. However, these methods often neglect the specificity of adversarial training in DMs, resulting in only partial mitigation. In this work, we investigate and quantify this specificity from the perspective of concept space, i.e., can adversarial samples truly fit the target concept space? We observe that existing methods neglect the role of conceptual semantics when generating adversarial samples, resulting in ineffective fitting of concept spaces. This oversight leads to the following issues: 1) when there are few adversarial samples, they fail to comprehensively cover the object concept; 2) conversely, they will disrupt other target concept spaces. Motivated by the analysis of these findings, we introduce S-GRACE (Semantics-Guided Robust Adversarial Concept Erasure), which grace leveraging semantic guidance within the concept space to generate adversarial samples and perform erasure training. Experiments conducted with seven state-of-the-art methods and three adversarial prompt generation strategies across various DM unlearning scenarios demonstrate that S-GRACE significantly improves erasure performance 26%, better preserves non-target concepts, and reduces training time by 90%. Our code is available at https://github.com/Qhong-522/S-GRACE.
- Abstract(参考訳): 概念消去は、拡散モデル(DM)における望ましくないコンテンツを選択的に学習し、センシティブなコンテンツ生成のリスクを低減することを目的としている。
概念消去の新たなパラダイムとして、既存のほとんどの手法では、ターゲット概念を特定して抑制するために敵の訓練を採用しており、センシティブな出力の可能性を低減している。
しかし、これらの手法はDMの逆行訓練の特異性を無視することが多く、部分緩和しか生じない。
本研究では、この特異性を概念空間の観点から検討し、定量化する。
既存の手法は, 対数サンプルの生成において概念意味論の役割を欠いているため, 概念空間を効果的に適合させることができない。
この監視は以下の問題に繋がる。
1) 反対サンプルが少ない場合,それらは,対象概念を包括的にカバーすることができない。
2) 逆に、他の対象概念空間を乱す。
これらの結果から,S-GRACE(Semantics-Guided Robust Adversarial Concept Erasure)を導入し,概念空間内の意味的ガイダンスを活用して,敵のサンプルを生成し,消去訓練を行う。
S-GRACEは,7つの最先端手法と,様々なDMアンラーニングシナリオを対象とした3つの対向的プロンプト生成戦略により,消去性能を26%向上し,非ターゲット概念を保存し,トレーニング時間を90%短縮することを示した。
私たちのコードはhttps://github.com/Qhong-522/S-GRACE.comから入手可能です。
関連論文リスト
- Erased or Dormant? Rethinking Concept Erasure Through Reversibility [6.895055915600732]
我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-22T03:26:46Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Fantastic Targets for Concept Erasure in Diffusion Models and Where To Find Them [21.386640828092524]
概念消去は拡散モデルにおける有害なコンテンツ生成のリスクを軽減するための有望な手法として現れてきた。
本稿では,各望ましくない概念に合わせて最適な目標概念を動的に選択するAdaptive Guided Erasure (AGE)法を提案する。
その結果, AGEは, 有効消去性能を維持しつつ, 無関係な概念を保存し, 最先端の消去手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-31T08:17:23Z) - Erasing More Than Intended? How Concept Erasure Degrades the Generation of Non-Target Concepts [31.232389877218377]
評価後のパフォーマンスを評価するための総合的なベンチマークであるEraseBenchを紹介する。
我々は、相互関係の異なるレベルにおける非ターゲット概念に対する概念除去の意図しない結果に焦点をあてる。
以上の結果から, 消去が意図しない非目標概念の抑制につながる概念絡み現象が明らかとなった。
論文 参考訳(メタデータ) (2025-01-16T20:42:17Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - CosalPure: Learning Concept from Group Images for Robust Co-Saliency Detection [22.82243087156918]
Co-Salient Object Detection (CoSOD) は、特定の画像群をまたいだ共通領域(通常は前景)を特定することを目的としている。
逆行性摂動は、いくつかの逆行性摂動の影響を受けやすいため、かなりの精度の低下につながる。
本稿では,入力群画像に基づいて,共分散オブジェクトの概念を学習し,新しいロバストネス向上フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T13:33:14Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。