論文の概要: Consistency-Preserving Concept Erasure via Unsafe-Safe Pairing and Directional Fisher-weighted Adaptation
- arxiv url: http://arxiv.org/abs/2602.05339v1
- Date: Thu, 05 Feb 2026 06:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.779664
- Title: Consistency-Preserving Concept Erasure via Unsafe-Safe Pairing and Directional Fisher-weighted Adaptation
- Title(参考訳): 安全でないペアリングと指向性漁業重み付き適応による一貫性保存概念の消去
- Authors: Yongwoo Kim, Sungmin Cha, Hyunsoo Kim, Jaewon Lee, Donghyun Kim,
- Abstract要約: 既存の概念消去アプローチは、対応する安全な代替手段へのガイダンスを提供することなく、安全でない概念を取り除くことに重点を置いている。
PAIRed Erasing(PAIRed Erasing)という新しいフレームワークを提案し、単純な削除から一貫性を保つセマンティックアライメントへと概念の消去を再構築する。
提案手法は, 構造的整合性, セマンティック・コヒーレンス, 生成品質を保ちながら, 効率的な概念消去を実現し, 最先端のベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 17.59828667571619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing versatility of text-to-image diffusion models, the ability to selectively erase undesirable concepts (e.g., harmful content) has become indispensable. However, existing concept erasure approaches primarily focus on removing unsafe concepts without providing guidance toward corresponding safe alternatives, which often leads to failure in preserving the structural and semantic consistency between the original and erased generations. In this paper, we propose a novel framework, PAIRed Erasing (PAIR), which reframes concept erasure from simple removal to consistency-preserving semantic realignment using unsafe-safe pairs. We first generate safe counterparts from unsafe inputs while preserving structural and semantic fidelity, forming paired unsafe-safe multimodal data. Leveraging these pairs, we introduce two key components: (1) Paired Semantic Realignment, a guided objective that uses unsafe-safe pairs to explicitly map target concepts to semantically aligned safe anchors; and (2) Fisher-weighted Initialization for DoRA, which initializes parameter-efficient low-rank adaptation matrices using unsafe-safe pairs, encouraging the generation of safe alternatives while selectively suppressing unsafe concepts. Together, these components enable fine-grained erasure that removes only the targeted concepts while maintaining overall semantic consistency. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art baselines, achieving effective concept erasure while preserving structural integrity, semantic coherence, and generation quality.
- Abstract(参考訳): テキスト・画像拡散モデルの汎用性の向上に伴い、望ましくない概念(例えば有害な内容)を選択的に消去する能力は欠かせないものとなっている。
しかし、既存の概念消去アプローチは、主に安全でない概念を取り除くことに焦点を当て、それに対応する代替案へのガイダンスを提供することなく、しばしば元の世代と削除された世代の間の構造的および意味的な一貫性を維持するのに失敗する。
本稿では,PAIR(Paired Erasing)という新しいフレームワークを提案する。
まず、構造的・意味的忠実性を保ちつつ、安全でない入力から安全な入力を生成し、ペア化された安全でないマルチモーダルデータを生成する。
これらのペアを活用して,(1)安全でないペアを用いてターゲット概念を意味的に整合した安全なアンカーに明示的にマッピングするガイド付き目標であるPaired Semantic Realignment,(2)安全でないペアを用いてパラメータ効率の低いローランク適応行列を初期化し,安全でない概念を選択的に抑制しながら安全な代替物の生成を促進するDoRAの初期化,の2つの主要なコンポーネントを紹介した。
これらのコンポーネントは、全体的なセマンティック一貫性を維持しながら、ターゲットとする概念のみを除去する、きめ細かい消去を可能にする。
提案手法は, 構造的整合性, セマンティック・コヒーレンス, 生成品質を保ちながら, 有効概念の消去を実現し, 最先端のベースラインを著しく上回ることを示す。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Bi-Erasing: A Bidirectional Framework for Concept Removal in Diffusion Models [32.35244979539898]
概念消去は、テキスト・ツー・イメージ・モデルにおいて、安全でない、あるいは違法な画像生成を緩和する主要なアプローチとなっている。
本稿では,概念抑制と安全性向上を同時に行う双方向画像誘導概念消去(Bidirectional Image-Guided Concept Erasure, Bi-Erasing)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-15T07:08:35Z) - SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge [51.634837361795434]
SaFeR-CLIPは安全性と性能を調整し、以前の方法に比べて最大8.0%のゼロショット精度を回復する。
NSFW-Capsは、分散シフト下での安全性をテストするために、1000の高度に整合したペアの新しいベンチマークである。
論文 参考訳(メタデータ) (2025-11-20T19:00:15Z) - CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T05:38:18Z) - SAGE: Exploring the Boundaries of Unsafe Concept Domain with Semantic-Augment Erasing [65.82241040239452]
望ましくない概念に微妙な重みを消去する概念。
既存の方法は、安全でない概念を固定語として扱い、繰り返し消去する。
本稿では,概念語消去を概念ドメイン消去に変換する意味拡張消去について紹介する。
論文 参考訳(メタデータ) (2025-06-11T03:21:24Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。