論文の概要: ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Patching
- arxiv url: http://arxiv.org/abs/2601.00267v1
- Date: Thu, 01 Jan 2026 09:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.347484
- Title: ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Patching
- Title(参考訳): ActErase: アクティベーションパッチングによる精密概念消去のためのトレーニングフリーパラダイム
- Authors: Yi Sun, Xinhao Zhong, Hongyan Li, Yimin Zhou, Junhao Li, Bin Chen, Xuan Wang,
- Abstract要約: 効率的な概念消去のための新しいトレーニングフリー手法(ActErase)を提案する。
本手法は,モデル全体の生成能力を効果的に保ちながら,最先端の消去性能を実現する。
- 参考スコア(独自算出の注目度): 16.08258534688825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image diffusion models have demonstrated remarkable generation capabilities, yet they raise significant concerns regarding safety, copyright, and ethical implications. Existing concept erasure methods address these risks by removing sensitive concepts from pre-trained models, but most of them rely on data-intensive and computationally expensive fine-tuning, which poses a critical limitation. To overcome these challenges, inspired by the observation that the model's activations are predominantly composed of generic concepts, with only a minimal component can represent the target concept, we propose a novel training-free method (ActErase) for efficient concept erasure. Specifically, the proposed method operates by identifying activation difference regions via prompt-pair analysis, extracting target activations and dynamically replacing input activations during forward passes. Comprehensive evaluations across three critical erasure tasks (nudity, artistic style, and object removal) demonstrates that our training-free method achieves state-of-the-art (SOTA) erasure performance, while effectively preserving the model's overall generative capability. Our approach also exhibits strong robustness against adversarial attacks, establishing a new plug-and-play paradigm for lightweight yet effective concept manipulation in diffusion models.
- Abstract(参考訳): テキスト・画像拡散モデルの最近の進歩は、顕著な生成能力を示しているが、それらは安全性、著作権、倫理的意味に関する重大な懸念を提起している。
既存の概念消去手法は、事前訓練されたモデルからセンシティブな概念を取り除き、これらのリスクに対処するが、その多くはデータ集約的で計算的に高価な微調整に依存しており、限界を生じさせる。
これらの課題を克服するために、モデルのアクティベーションは主に汎用概念で構成されており、最小限のコンポーネントしか対象概念を表現できないという観察に着想を得て、効率的な概念消去のための新しいトレーニングフリー手法(ActErase)を提案する。
具体的には、アクティベーション差分領域をアクティベーションペア解析により同定し、ターゲットアクティベーションを抽出し、前方通過時の入力アクティベーションを動的に置き換える。
3つの重要な消去作業(ニュディティ、アートスタイル、オブジェクト除去)における総合的な評価は、トレーニング不要な手法が、モデル全体の生成能力を効果的に保ちながら、最先端(SOTA)消去性能を達成することを示す。
また,本手法は敵攻撃に対する強力な堅牢性を示し,拡散モデルにおける軽量かつ効果的な概念操作のための新しいプラグ・アンド・プレイパラダイムを構築した。
関連論文リスト
- Erased, But Not Forgotten: Erased Rectified Flow Transformers Still Remain Unsafe Under Concept Attack [37.88516477305766]
本稿では,最新のフローベースT2Iフレームワークにおいて,概念消去の堅牢性を評価するために設計された最初の概念攻撃手法であるReFluxを提案する。
我々のアプローチは、既存の概念消去技術が Flux に適用された場合、基本的にはアテンションローカライゼーションとして知られる現象に依存しているという観察に動機づけられている。
論文 参考訳(メタデータ) (2025-10-01T08:12:07Z) - Continual Unlearning for Foundational Text-to-Image Models without Generalization Erosion [56.35484513848296]
本研究は,基本生成モデルから複数の特定の概念を対象とする除去を可能にする新しいパラダイムである連続的アンラーニングを導入する。
本稿では,望ましくない概念の生成を選択的に解き放つような一般化エロージョン(DUGE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-17T23:17:16Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。