論文の概要: Closed-Form Concept Erasure via Double Projections
- arxiv url: http://arxiv.org/abs/2604.10032v1
- Date: Sat, 11 Apr 2026 05:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.802521
- Title: Closed-Form Concept Erasure via Double Projections
- Title(参考訳): 二重射影による閉形概念消去
- Authors: Chi Zhang, Jingpu Cheng, Zhixian Wang, Ping Liu,
- Abstract要約: 概念消去は、生成モデルから望ましくない概念を取り除くプロセスである。
本稿では, 学習を伴わずに, 概念消去を解析的に実現する線形変換フレームワークを提案する。
我々の設計は、安全、効率的、理論に基づく概念除去のための決定論的かつ幾何学的に解釈可能な手順をもたらす。
- 参考スコア(独自算出の注目度): 8.357438653110973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern generative models such as diffusion-based architectures have enabled impressive creative capabilities, they also raise important safety and ethical risks. These concerns have led to growing interest in concept erasure, the process of removing unwanted concepts from model representations. Existing approaches often achieve strong erasure performance but rely on iterative optimization and may inadvertently distort unrelated concepts. In this work, we present a simple yet principled alternative: a linear transformation framework that achieves concept erasure analytically, without any training. Our method adapts a pretrained model through two sequential, closed-form steps: first, computing a proxy projection of the target concept, and second, applying a constrained transformation within the left null space of known concept directions. This design yields a deterministic and geometrically interpretable procedure for safe, efficient, and theory-grounded concept removal. Across a wide range of experiments, including object and style erasure on multiple Stable Diffusion variants and the flow-matching model (FLUX), our approach matches or surpasses the performance of state-of-the-art methods while preserving non-target concepts more faithfully. Requiring only a few seconds to apply, it offers a lightweight and drop-in tool for controlled model editing, advancing the goal of safer and more responsible generative models.
- Abstract(参考訳): 拡散に基づくアーキテクチャのような近代的な生成モデルは、印象的な創造的能力を実現する一方で、重要な安全性と倫理的リスクも高めている。
これらの懸念は、モデル表現から望ましくない概念を取り除くプロセスである概念の消去への関心を高めている。
既存のアプローチは、しばしば強い消去性能を達成するが、反復最適化に依存し、意図せず無関係な概念を歪めてしまうことがある。
本研究では, 概念消去を解析的に達成する線形変換フレームワークを, トレーニングを伴わずに提案する。
まず、対象概念のプロキシプロジェクションを計算し、次に、既知の概念方向の左ヌル空間内で制約付き変換を適用する。
この設計は、安全、効率的、理論に基づく概念除去のための決定論的かつ幾何学的に解釈可能な手順をもたらす。
複数の安定拡散変種とフローマッチングモデル(FLUX)のオブジェクトとスタイルの消去を含む、幅広い実験において、我々のアプローチは、より忠実に非ターゲット概念を保ちながら、最先端の手法のパフォーマンスに適合または超えている。
わずか数秒で適用でき、コントロールされたモデル編集のための軽量でドロップインのツールを提供し、より安全で責任のある生成モデルの目標を前進させる。
関連論文リスト
- Differential Vector Erasure: Unified Training-Free Concept Erasure for Flow Matching Models [49.10620605347065]
本研究では,フローマッチングモデルに特化して設計されたトレーニング不要な概念消去手法である差分ベクトル消去(DVE)を提案する。
我々の重要な洞察は、意味論的概念は生成フローを管理する速度場の方向構造に暗黙的に符号化されていることである。
推論中、DVEは速度場を微分方向に投影することで概念固有の成分を選択的に除去し、無関係な意味論に影響を与えることなく正確な概念抑圧を可能にする。
論文 参考訳(メタデータ) (2026-02-01T08:05:45Z) - When Are Concepts Erased From Diffusion Models? [37.59943248660331]
概念消去では、ターゲット概念の生成を選択的に防止するためにモデルを変更する。
拡散モデルにおける消去機構の2つの概念モデルを提案する。
モデルから概念が真に消去されたかどうかを評価するため,独立した探索手法を包括的に導入する。
論文 参考訳(メタデータ) (2025-05-22T17:59:09Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models [56.83154571623655]
モデルパラメータを直接編集する効率的な概念消去手法であるSPEEDを導入する。
Speedyは、パラメータ更新がターゲット以外の概念に影響しないモデル編集スペースであるnullスペースを検索する。
たった5秒で100のコンセプトを消去しました。
論文 参考訳(メタデータ) (2025-03-10T14:40:01Z) - Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models [76.39651111467832]
本稿では,Reliable and Efficient Concept Erasure (RECE)を提案する。
派生した埋め込みによって表現される不適切なコンテンツを緩和するために、RECEはそれらをクロスアテンション層における無害な概念と整合させる。
新たな表現埋め込みの導出と消去を反復的に行い、不適切な概念の徹底的な消去を実現する。
論文 参考訳(メタデータ) (2024-07-17T08:04:28Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Separable Multi-Concept Erasure from Diffusion Models [52.51972530398691]
大規模拡散モデルから安全でない概念を排除するために,分離可能なマルチコンセプト消去器(SepME)を提案する。
後者は最適化可能なモデルウェイトを分離し、各ウェイトインクリメントは特定の概念の消去に対応する。
広範囲にわたる実験は, 概念の排除, モデル性能の保存, 各種概念の消去・回復における柔軟性の確保に, アプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-03T11:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。