論文の概要: OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure
- arxiv url: http://arxiv.org/abs/2603.11493v1
- Date: Thu, 12 Mar 2026 03:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.843247
- Title: OrthoEraser: Coupled-Neuron Orthogonal Projection for Concept Erasure
- Title(参考訳): OrthoEraser:概念消去のための結合ネロン直交射影
- Authors: Chuancheng Shi, Wenhua Wu, Fei Shen, Xiaogang Zhu, Kun Hu, Zhiyong Wang,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、敵対的誘導による重大な安全性のリスクに直面している。
現在の概念消去法は、選択された神経細胞を完全に抑制する際、良性属性に副次的損傷を引き起こすことが多い。
スパースオートエンコーダを利用して高分解能な特徴分散を実現するOrthoEraserを提案する。
- 参考スコア(独自算出の注目度): 32.83374287840005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models face significant safety risks from adversarial induction, yet current concept erasure methods often cause collateral damage to benign attributes when suppressing selected neurons entirely. This occurs because sensitive and benign semantics exhibit non-orthogonal superposition, sharing activation subspaces where their respective vectors are inherently entangled. To address this issue, we propose OrthoEraser, which leverages sparse autoencoders (SAE) to achieve high-resolution feature disentanglement and subsequently redefines erasure as an analytical orthogonalization projection that preserves the benign manifold's invariance. OrthoEraser first employs SAE to decompose dense activations and segregate sensitive neurons. It then uses coupled neuron detection to identify non-sensitive features vulnerable to intervention. The key novelty lies in an analytical gradient orthogonalization strategy that projects erasure vectors onto the null space of the coupled neurons. This orthogonally decouples the sensitive concepts from the identified critical benign subspace, effectively preserving non-sensitive semantics. Experimental results on safety demonstrate that OrthoEraser achieves high erasure precision, effectively removing harmful content while preserving the integrity of the generative manifold, and significantly outperforming SOTA baselines. This paper contains results of unsafe models.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、敵の誘導による重大な安全性のリスクに直面しているが、現在の概念消去法は、選択された神経細胞を完全に抑制する際、副次的な特性に損傷を与えることが多い。
これは、敏感で良性的な意味論が非直交的な重ね合わせを示し、それぞれのベクトルが本質的に絡み合っている活性化部分空間を共有するためである。
この問題に対処するために, スパースオートエンコーダ(SAE)を活用して高分解能な特徴分散を実現するOrthoEraserを提案し, 良多様体の不変性を保存する解析直交射影として消去を再定義する。
OrthoEraserは、まずSAEを用いて高濃度の活性化を分解し、感受性ニューロンを分離する。
次に、結合ニューロン検出を使用して、介入に弱い非感受性の特徴を識別する。
重要な新規性は、連結ニューロンのヌル空間に消去ベクトルを投影する解析的勾配直交化戦略にある。
これは直交的に重要な良性部分空間からセンシティブな概念を分離し、非センシティブな意味論を効果的に保存する。
安全性実験の結果,OrthoEraserは高い消去精度を達成し,生成多様体の完全性を維持しながら有害成分を効果的に除去し,SOTAベースラインを著しく上回った。
本稿は、安全でないモデルの結果を含む。
関連論文リスト
- The Illusion of Forgetting: Attack Unlearned Diffusion via Initial Latent Variable Optimization [51.835894707552946]
非学習型防衛は拡散モデル(DM)からNot-Safe-For-Work概念を浄化すると主張している
本研究では,未学習が言語記号と基礎知識のマッピングを部分的に破壊し,休眠記憶として残り続けることを示す。
IVOは、壊れたマッピングを再構築することで、これらの休眠記憶を再活性化する簡潔で強力な攻撃フレームワークである。
論文 参考訳(メタデータ) (2026-01-30T02:39:51Z) - Adversarial Vulnerability Transcends Computational Paradigms: Feature Engineering Provides No Defense Against Neural Adversarial Transfer [1.2482871069947656]
ディープニューラルネットワークは、誤分類を引き起こす敵の例に対して脆弱である。
敵対的脆弱性は、エンドツーエンドの識別可能性の人工物ではなく、画像分類システムの基本的特性であることを示す。
これらの結果から, 敵対的脆弱性は画像分類システムの基本的特性ではなく, エンド・ツー・エンドの識別可能性のアーチファクトであることがわかった。
論文 参考訳(メタデータ) (2026-01-29T06:35:46Z) - CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models [7.68494752148263]
CUREは、事前訓練された拡散モデルの重み空間で直接動作する、トレーニング不要の概念未学習フレームワークである。
スペクトル消去器は、安全な属性を保持しながら、望ましくない概念に特有の特徴を特定し、分離する。
CUREは、対象とする芸術スタイル、オブジェクト、アイデンティティ、明示的なコンテンツに対して、より効率的で徹底的な除去を実現する。
論文 参考訳(メタデータ) (2025-05-19T03:53:06Z) - NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models [14.630626774362606]
大型言語モデル(LLM)の安全性アライメントは、有害な内容を抑えるためにニューロンの活性化を調節する微調整機構によって達成される。
本稿では,安全性の制約を負うニューロンを同定し,修正することにより,不整合を誘導する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-29T05:49:35Z) - Orthogonal Subspace Decomposition for Generalizable AI-Generated Image Detection [58.87142367781417]
航法的に訓練された検出器は、限定的で単調な偽のパターンに過度に適合する傾向にあり、特徴空間は高度に制約され、低ランクになる。
潜在的な治療法の1つは、ビジョンファウンデーションモデルに事前訓練された知識を取り入れて、機能領域を広げることである。
主要なコンポーネントを凍結し、残ったコンポーネントのみを適用することで、フェイクパターンを学習しながら、トレーニング済みの知識を保存します。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。
意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。
また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文 参考訳(メタデータ) (2023-06-05T10:33:25Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z) - Interpreting Deep Neural Networks with Relative Sectional Propagation by
Analyzing Comparative Gradients and Hostile Activations [37.11665902583138]
DNN(Deep Neural Networks)の出力予測を分解するための新しいアトリビューション手法であるRelative Sectional Propagation(RSP)を提案する。
我々は、敵対的因子をターゲットの属性を見つけるのを妨げる要素として定義し、活性化ニューロンの非抑制的な性質を克服するために区別可能な方法でそれを伝播させる。
本手法により,従来の帰属法と比較して,DNNのクラス識別性や活性化ニューロンの詳細な解明により,DNNの予測を分解することができる。
論文 参考訳(メタデータ) (2020-12-07T03:11:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。