論文の概要: M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.22877v1
- Date: Sun, 28 Dec 2025 10:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.26402
- Title: M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models
- Title(参考訳): M-ErasureBench:拡散モデルにおける概念消去のための総合的マルチモーダル評価ベンチマーク
- Authors: Ju-Hsuan Weng, Jia-Wei Liao, Cheng-Fu Chou, Jun-Cheng Chen,
- Abstract要約: M-ErasureBenchは、3つの入力モードで概念消去メソッドをベンチマークする新しいフレームワークである。
IRECEはプラグイン・アンド・プレイのモジュールで、クロスアテンションを通じてターゲットのコンセプトをローカライズし、ノイズ発生時に関連する潜伏者を摂動させる。
- 参考スコア(独自算出の注目度): 13.885985776728559
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models may generate harmful or copyrighted content, motivating research on concept erasure. However, existing approaches primarily focus on erasing concepts from text prompts, overlooking other input modalities that are increasingly critical in real-world applications such as image editing and personalized generation. These modalities can become attack surfaces, where erased concepts re-emerge despite defenses. To bridge this gap, we introduce M-ErasureBench, a novel multimodal evaluation framework that systematically benchmarks concept erasure methods across three input modalities: text prompts, learned embeddings, and inverted latents. For the latter two, we evaluate both white-box and black-box access, yielding five evaluation scenarios. Our analysis shows that existing methods achieve strong erasure performance against text prompts but largely fail under learned embeddings and inverted latents, with Concept Reproduction Rate (CRR) exceeding 90% in the white-box setting. To address these vulnerabilities, we propose IRECE (Inference-time Robustness Enhancement for Concept Erasure), a plug-and-play module that localizes target concepts via cross-attention and perturbs the associated latents during denoising. Experiments demonstrate that IRECE consistently restores robustness, reducing CRR by up to 40% under the most challenging white-box latent inversion scenario, while preserving visual quality. To the best of our knowledge, M-ErasureBench provides the first comprehensive benchmark of concept erasure beyond text prompts. Together with IRECE, our benchmark offers practical safeguards for building more reliable protective generative models.
- Abstract(参考訳): テキストから画像への拡散モデルは有害または著作権のあるコンテンツを生成し、概念の消去の研究を動機付ける。
しかし、既存のアプローチは、主にテキストプロンプトから概念を消去することに焦点を当てており、画像編集やパーソナライズド生成といった現実世界のアプリケーションでますます重要になっている他の入力モダリティを見越している。
これらのモダリティは攻撃面となり、防御にもかかわらず概念が復活する。
このギャップを埋めるために、M-ErasureBenchという新しいマルチモーダル評価フレームワークを紹介します。
後者の2つについて、ホワイトボックスとブラックボックスの両方のアクセスを評価し、5つの評価シナリオを得た。
提案手法は,テキストプロンプトに対して強い消去性能を示すが,学習した埋め込みや逆の潜伏条件下ではほとんど失敗し,概念再現率(CRR)はホワイトボックス設定で90%を超えている。
これらの脆弱性に対処するため、我々はIRECE(Inference-time Robustness Enhancement for Concept Erasure)を提案する。
IRECEは、視覚的品質を維持しながら、最も困難なホワイトボックスの潜伏反転シナリオの下で、常に堅牢性を回復し、CRRを最大40%削減することを示した。
私たちの知る限り、M-ErasureBenchはテキストプロンプト以外の概念消去に関する最初の包括的なベンチマークを提供する。
IRECEとともに、我々のベンチマークはより信頼性の高い保護生成モデルを構築するための実用的なセーフガードを提供する。
関連論文リスト
- Semantic Surgery: Zero-Shot Concept Erasure in Diffusion Models [27.672305802461377]
拡散プロセスの前にテキスト埋め込みを直接操作する,概念消去のための新しいトレーニングフリーゼロショットフレームワークを提案する。
我々は、局所性と画質を保ちながら、優れた完全性と堅牢性を達成する。
この堅牢性により、我々のフレームワークは脅威検出システムとして機能し、より安全なテキスト・画像生成のための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-26T22:04:17Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Erasing More Than Intended? How Concept Erasure Degrades the Generation of Non-Target Concepts [31.232389877218377]
評価後のパフォーマンスを評価するための総合的なベンチマークであるEraseBenchを紹介する。
我々は、相互関係の異なるレベルにおける非ターゲット概念に対する概念除去の意図しない結果に焦点をあてる。
以上の結果から, 消去が意図しない非目標概念の抑制につながる概念絡み現象が明らかとなった。
論文 参考訳(メタデータ) (2025-01-16T20:42:17Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。