論文の概要: SAEmnesia: Erasing Concepts in Diffusion Models with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2509.21379v1
- Date: Tue, 23 Sep 2025 11:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.886492
- Title: SAEmnesia: Erasing Concepts in Diffusion Models with Sparse Autoencoders
- Title(参考訳): SAEmnesia:スパースオートエンコーダを用いた拡散モデルにおける概念の消去
- Authors: Enrico Cassano, Riccardo Renzulli, Marco Nurisso, Mirko Zaffaroni, Alan Perotti, Marco Grangetto,
- Abstract要約: SAEmnesiaは1対1の概念ニューロンマッピングを促進する教師付きスパースオートエンコーダ訓練法である。
提案手法は, 教師なしベースラインに比べて, 概念関連性が非常に強い専門ニューロンを学習する。
- 参考スコア(独自算出の注目度): 6.6477077425454745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective concept unlearning in text-to-image diffusion models requires precise localization of concept representations within the model's latent space. While sparse autoencoders successfully reduce neuron polysemanticity (i.e., multiple concepts per neuron) compared to the original network, individual concept representations can still be distributed across multiple latent features, requiring extensive search procedures for concept unlearning. We introduce SAEmnesia, a supervised sparse autoencoder training method that promotes one-to-one concept-neuron mappings through systematic concept labeling, mitigating feature splitting and promoting feature centralization. Our approach learns specialized neurons with significantly stronger concept associations compared to unsupervised baselines. The only computational overhead introduced by SAEmnesia is limited to cross-entropy computation during training. At inference time, this interpretable representation reduces hyperparameter search by 96.67% with respect to current approaches. On the UnlearnCanvas benchmark, SAEmnesia achieves a 9.22% improvement over the state-of-the-art. In sequential unlearning tasks, we demonstrate superior scalability with a 28.4% improvement in unlearning accuracy for 9-object removal.
- Abstract(参考訳): テキストから画像への拡散モデルにおける効果的な概念学習は、モデルの潜在空間における概念表現の正確な局所化を必要とする。
スパースオートエンコーダは、元のネットワークと比較してニューロンの多面性(すなわち、ニューロンごとの複数の概念)を効果的に減少させるが、個々の概念表現は複数の潜在的特徴に分散し、概念未学習のための広範囲な探索手順を必要とする。
SAEmnesiaは1対1のコンセプトニューロンマッピングを促進する教師付きスパースオートエンコーダトレーニング手法であり,機能分割を緩和し,特徴集中を促進する。
提案手法は, 教師なしベースラインに比べて, 概念関連性が非常に強い専門ニューロンを学習する。
SAEmnesiaによって導入された唯一の計算オーバーヘッドは、トレーニング中のクロスエントロピー計算に限られている。
この解釈可能な表現は、現在のアプローチに関して、ハイパーパラメーター探索を96.67%削減する。
UnlearnCanvasベンチマークでは、SAEmnesiaは最先端よりも9.22%改善されている。
逐次的アンラーニングタスクでは、9オブジェクト除去のための非ラーニング精度を28.4%向上させ、優れたスケーラビリティを示す。
関連論文リスト
- Sparse Autoencoder Neural Operators: Model Recovery in Function Spaces [75.45093712182624]
本研究では,スパースオートエンコーダ(SAE)を昇降空間や無限次元関数空間に拡張し,大規模ニューラル演算子(NO)の機械的解釈性を実現するフレームワークを提案する。
我々は、SAE、リフト-SAE、SAEニューラル演算子の推論とトレーニングのダイナミクスを比較した。
我々は、リフトと演算子モジュールが有益な帰納バイアスを導入し、より高速なリカバリを可能にし、スムーズな概念のリカバリを改善し、様々な解像度にわたる堅牢な推論を可能にした点を強調した。
論文 参考訳(メタデータ) (2025-09-03T21:57:03Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders [4.013156524547073]
拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
本稿では,スパースオートエンコーダが学習した特徴を利用して不要な概念を除去する手法であるSAeUronを紹介する。
論文 参考訳(メタデータ) (2025-01-29T23:29:47Z) - Growing Deep Neural Network Considering with Similarity between Neurons [4.32776344138537]
我々は、訓練段階におけるコンパクトモデルにおいて、ニューロン数を漸進的に増加させる新しいアプローチを探求する。
本稿では,ニューロン類似性分布に基づく制約を導入することにより,特徴抽出バイアスと神経冗長性を低減する手法を提案する。
CIFAR-10とCIFAR-100データセットの結果、精度が向上した。
論文 参考訳(メタデータ) (2024-08-23T11:16:37Z) - Removing Spurious Concepts from Neural Network Representations via Joint Subspace Estimation [0.0]
ニューラルネットワークにおけるアウト・オブ・ディストリビューションの一般化は、しばしば素早い相関によって妨げられる。
既存の概念除去手法は、モデルの主要なタスクに関連する機能を不注意に排除することで、過熱する傾向にある。
本稿では,ニューラルネットワーク表現における2つの低次元部分空間を共同で同定することにより,主タスク概念から突発性を分離する反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:22:36Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Training Feedback Spiking Neural Networks by Implicit Differentiation on
the Equilibrium State [66.2457134675891]
スパイキングニューラルネットワーク(英: Spiking Neural Network、SNN)は、ニューロモルフィックハードウェア上でエネルギー効率の高い実装を可能にする脳にインスパイアされたモデルである。
既存のほとんどの手法は、人工ニューラルネットワークのバックプロパゲーションフレームワークとフィードフォワードアーキテクチャを模倣している。
本稿では,フォワード計算の正逆性に依存しない新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T07:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。