論文の概要: Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection
- arxiv url: http://arxiv.org/abs/2602.19631v1
- Date: Mon, 23 Feb 2026 09:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.750623
- Title: Localized Concept Erasure in Text-to-Image Diffusion Models via High-Level Representation Misdirection
- Title(参考訳): 高レベル表現ミスダイレクトによるテキスト・画像拡散モデルにおける局所的概念消去
- Authors: Uichan Lee, Jeonghyeon Kim, Sangheum Hwang,
- Abstract要約: 本稿では,テキストエンコーダにおけるハイレベルな意味表現を指定されたベクトルに対して誤って誘導するハイレベル表現ミスダイレクト(HiRM)を提案する。
我々の戦略は、無関係な概念に対する最小限の影響で正確な概念除去を可能にする。
また、HIRMは、低コストで生成ユーティリティを保存し、Fluxのような最先端のアーキテクチャに追加のトレーニングなしで移行し、デノイザベースの概念消去手法と相乗効果を示す。
- 参考スコア(独自算出の注目度): 7.863370847022858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion models have seen rapid and widespread adoption. However, their powerful generative capabilities raise concerns about potential misuse for synthesizing harmful, private, or copyrighted content. To mitigate such risks, concept erasure techniques have emerged as a promising solution. Prior works have primarily focused on fine-tuning the denoising component (e.g., the U-Net backbone). However, recent causal tracing studies suggest that visual attribute information is localized in the early self-attention layers of the text encoder, indicating a potential alternative for concept erasing. Building on this insight, we conduct preliminary experiments and find that directly fine-tuning early layers can suppress target concepts but often degrades the generation quality of non-target concepts. To overcome this limitation, we propose High-Level Representation Misdirection (HiRM), which misdirects high-level semantic representations of target concepts in the text encoder toward designated vectors such as random directions or semantically defined directions (e.g., supercategories), while updating only early layers that contain causal states of visual attributes. Our decoupling strategy enables precise concept removal with minimal impact on unrelated concepts, as demonstrated by strong results on UnlearnCanvas and NSFW benchmarks across diverse targets (e.g., objects, styles, nudity). HiRM also preserves generative utility at low training cost, transfers to state-of-the-art architectures such as Flux without additional training, and shows synergistic effects with denoiser-based concept erasing methods.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)拡散モデルが急速に普及している。
しかし、その強力な生成能力は、有害、プライベート、著作権のあるコンテンツを合成する誤用の可能性への懸念を引き起こす。
このようなリスクを軽減するため、概念消去技術が有望な解決策として登場した。
以前の作業は主に、denoisingコンポーネント(例:U-Netのバックボーン)の微調整に重点を置いていた。
しかし,近年の因果的追跡研究により,テキストエンコーダの初期自己認識層に視覚属性情報が局在していることが示唆され,概念消去の代替となる可能性が示唆された。
この知見に基づいて予備実験を行い、直接調整した初期層はターゲット概念を抑えることができるが、ターゲットでない概念の生成品質を劣化させることが多いことを発見した。
この制限を克服するために,テキストエンコーダにおけるターゲット概念の高レベルな意味表現を,ランダムな方向や意味論的に定義された方向(スーパーカテゴリなど)などの指定されたベクトルに誤って誘導し,視覚特性の因果状態を含む初期層のみを更新するハイレベル表現ミスダイレクト(HiRM)を提案する。
我々のデカップリング戦略は、UnlearnCanvasとNSFWベンチマーク(オブジェクト、スタイル、ヌードなど)の強い結果によって示されるように、無関係な概念に最小限の影響で正確な概念除去を可能にする。
また、HIRMは、低コストで生成ユーティリティを保存し、Fluxのような最先端のアーキテクチャに追加のトレーニングなしで移行し、デノイザベースの概念消去手法と相乗効果を示す。
関連論文リスト
- Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models [49.10620605347065]
本研究では,フローマッチングモデルに特化して設計されたトレーニング不要な概念消去手法である差分ベクトル消去(DVE)を提案する。
我々の重要な洞察は、意味論的概念は生成フローを管理する速度場の方向構造に暗黙的に符号化されていることである。
推論中、DVEは速度場を微分方向に投影することで概念固有の成分を選択的に除去し、無関係な意味論に影響を与えることなく正確な概念抑圧を可能にする。
論文 参考訳(メタデータ) (2026-02-01T08:05:45Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Concept Pinpoint Eraser for Text-to-image Diffusion Models via Residual Attention Gate [10.996274286143244]
拡散モデルにおける対象概念を最小限の歪みで保存しながら削除することを目的として,概念消去について検討した。
本研究では, 対象概念を選択的に消去(あるいはカット)するEmphnonlinear Residual Attention Gates (ResAGs) を追加することで, 概念ピンポイント消去 (Concept Pinpoint Eraser, CPE) と呼ばれる新しいフレームワークを提案する。
CPEは、様々な概念を維持しながら、攻撃プロンプトに対する堅牢さで目標概念を削除し、先行技術より優れています。
論文 参考訳(メタデータ) (2025-06-28T08:17:19Z) - TRACE: Trajectory-Constrained Concept Erasure in Diffusion Models [0.0]
概念消去は、生成モデルにおいて特定の概念情報を削除または抑制することを目的としている。
Trajectory-Constrained Attentional Concept Erasure (TRACE) は拡散モデルから対象概念を消去する新しい手法である。
TRACEは最先端のパフォーマンスを実現し、ANT、EraseAnything、MACEといった最近の手法よりも、除去効率と出力品質の点で優れています。
論文 参考訳(メタデータ) (2025-05-29T10:15:22Z) - Erased or Dormant? Rethinking Concept Erasure Through Reversibility [6.895055915600732]
我々は、統一概念編集と消去安定拡散という2つの代表的な概念消去手法を評価する。
消去された概念は、最小限の適応の後、しばしばかなりの視覚的忠実度で再帰することを示す。
本研究は,既存の概念消去アプローチにおける限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-22T03:26:46Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。