論文の概要: Side Effects of Erasing Concepts from Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.15124v2
- Date: Sun, 24 Aug 2025 23:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.562862
- Title: Side Effects of Erasing Concepts from Diffusion Models
- Title(参考訳): 拡散モデルによる消去概念の副作用
- Authors: Shaswati Saha, Sourajit Saha, Manas Gaur, Tejas Gokhale,
- Abstract要約: 概念消去技術(CET)は、望ましくない「ターゲット」概念の生成を禁止している。
CETは容易に回避できることを示し、概念消去の副作用をいくつか提示する。
私たちはデータセット、コード、評価ツールをリリースし、堅牢な概念消去に向けた将来の作業を支援します。
- 参考スコア(独自算出の注目度): 22.324771758006595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Concerns about text-to-image (T2I) generative models infringing on privacy, copyright, and safety have led to the development of Concept Erasure Techniques (CETs). The goal of an effective CET is to prohibit the generation of undesired "target" concepts specified by the user, while preserving the ability to synthesize high-quality images of the remaining concepts. In this work, we demonstrate that CETs can be easily circumvented and present several side effects of concept erasure. For a comprehensive measurement of the robustness of CETs, we present Side Effect Evaluation (SEE), an evaluation benchmark that consists of hierarchical and compositional prompts that describe objects and their attributes. This dataset and our automated evaluation pipeline quantify side effects of CETs across three aspects: impact on neighboring concepts, evasion of targets, and attribute leakage. Our experiments reveal that CETs can be circumvented by using superclass-subclass hierarchy and semantically similar prompts, such as compositional variants of the target. We show that CETs suffer from attribute leakage and counterintuitive phenomena of attention concentration or dispersal. We release our dataset, code, and evaluation tools to aid future work on robust concept erasure.
- Abstract(参考訳): プライバシ、著作権、安全性を侵害するテキスト・ツー・イメージ(T2I)生成モデルに関する懸念が、概念消去技術(Concept Erasure Techniques, CETs)の開発に繋がった。
効果的なCETの目標は、ユーザが指定した望ましくない「ターゲット」概念の生成を禁止し、残りの概念の高品質な画像の合成を可能にすることである。
本研究では,CETが容易に回避できることを実証し,概念消去の副作用をいくつか提示する。
CETのロバスト性を総合的に測定するために、オブジェクトとその属性を記述する階層的および構成的プロンプトからなる評価ベンチマークであるSEE(Side Effect Evaluation)を提案する。
このデータセットと自動評価パイプラインは、近隣のコンセプトへの影響、ターゲットの回避、属性リークの3つの側面で、CETの副作用を定量化します。
実験の結果、CETは、スーパークラスサブクラス階層と、ターゲットの合成変種のような意味的に類似したプロンプトを用いることで回避できることがわかった。
CETは属性リークや注意集中や分散の直感的現象に悩まされている。
私たちはデータセット、コード、評価ツールをリリースし、堅牢な概念消去に向けた将来の作業を支援します。
関連論文リスト
- Concept-TRAK: Understanding how diffusion models learn concepts through concept-level attribution [20.93589028730206]
我々は,emphConcept-TRAKと呼ばれる新しい手法を用いて,emphConceptレベルの属性を導入する。
概念TRAKは,(1)拡散後サンプリングに基づく拡散訓練損失の修正と,(2)意味的関連性を重視した概念認識報酬関数である。
論文 参考訳(メタデータ) (2025-07-09T05:03:57Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [45.393001061726366]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - DuMo: Dual Encoder Modulation Network for Precise Concept Erasure [75.05165577219425]
非ターゲット概念に対する最小限の障害を伴う不適切なターゲット概念の正確な消去を実現するDuMo(Dual Encoder Modulation Network)を提案する。
提案手法は, 明示的コンテンツ消去, カートゥーン概念除去, アーティスティックスタイル消去における最先端性能を実現し, 代替手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2025-01-02T07:47:34Z) - CAT: Concept-level backdoor ATtacks for Concept Bottleneck Models [8.236058439213473]
概念ボトルネックモデル(CBM)は、高レベルな意味情報を活用することで、解釈可能性を改善するための重要なアプローチとして登場した。
CBMはセキュリティ上の脅威、特にモデル動作を隠蔽的に操作できるバックドア攻撃の影響を受けやすい。
CAT(Concept-level Backdoor ATtacks)は,CBM内の概念表現を利用して,トレーニング中にトリガを埋め込む手法である。
強化された攻撃パターンであるCAT+は、最も効果的でステルス的な概念トリガーを体系的に選択する相関関数を組み込んでいる。
論文 参考訳(メタデータ) (2024-10-07T08:14:17Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Enhancing Robust Representation in Adversarial Training: Alignment and
Exclusion Criteria [61.048842737581865]
対人訓練 (AT) は, 頑健な特徴の学習を省略し, 対人的頑健さの低下を招いた。
非対称な負のコントラストと逆の注意によって、頑健な表現を得るためのATの一般的なフレームワークを提案する。
3つのベンチマークデータセットの実証評価により,ATの堅牢性を大幅に向上し,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-05T07:29:29Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Face Anti-Spoofing Via Disentangled Representation Learning [90.90512800361742]
顔認識システムのセキュリティには、顔の偽造が不可欠だ。
本稿では,画像から生意気な特徴やコンテンツの特徴を乱す顔のアンチ・スプーフィングの新たな視点を提案する。
論文 参考訳(メタデータ) (2020-08-19T03:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。