論文の概要: SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2501.18052v2
- Date: Fri, 31 Jan 2025 18:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:12.207973
- Title: SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders
- Title(参考訳): SAeUron: スパースオートエンコーダを用いた拡散モデルにおける解釈可能な概念アンラーニング
- Authors: Bartosz Cywiński, Kamil Deja,
- Abstract要約: 拡散モデルは、必然的に有害または望ましくないコンテンツを生成できる。
最近の機械学習アプローチは潜在的な解決策を提供するが、透明性を欠いていることが多い。
スパースオートエンコーダによって学習された特徴を活用する新しい手法であるSAeUronを紹介する。
- 参考スコア(独自算出の注目度): 4.013156524547073
- License:
- Abstract: Diffusion models, while powerful, can inadvertently generate harmful or undesirable content, raising significant ethical and safety concerns. Recent machine unlearning approaches offer potential solutions but often lack transparency, making it difficult to understand the changes they introduce to the base model. In this work, we introduce SAeUron, a novel method leveraging features learned by sparse autoencoders (SAEs) to remove unwanted concepts in text-to-image diffusion models. First, we demonstrate that SAEs, trained in an unsupervised manner on activations from multiple denoising timesteps of the diffusion model, capture sparse and interpretable features corresponding to specific concepts. Building on this, we propose a feature selection method that enables precise interventions on model activations to block targeted content while preserving overall performance. Evaluation with the competitive UnlearnCanvas benchmark on object and style unlearning highlights SAeUron's state-of-the-art performance. Moreover, we show that with a single SAE, we can remove multiple concepts simultaneously and that in contrast to other methods, SAeUron mitigates the possibility of generating unwanted content, even under adversarial attack. Code and checkpoints are available at: https://github.com/cywinski/SAeUron.
- Abstract(参考訳): 拡散モデルは強力だが、必然的に有害または望ましくないコンテンツを生成でき、重大な倫理的および安全上の懸念を生じさせる。
最近の機械学習アプローチは潜在的なソリューションを提供するが、透明性が欠如していることが多いため、ベースモデルに導入した変更を理解するのが難しくなっている。
本研究では,テキスト・画像拡散モデルにおいて,スパース・オートエンコーダ(SAE)が学習した特徴を利用して不要な概念を除去する手法であるSAeUronを紹介する。
まず,拡散モデルの複数の段階から発せられるアクティベーションを教師なしで訓練したSAEが,特定の概念に対応するスパースや解釈可能な特徴を捉えることを実証する。
そこで本研究では,モデルアクティベーションの正確な介入を可能とし,全体的な性能を保ちながら,対象コンテンツをブロックする機能選択手法を提案する。
オブジェクトとスタイルのアンラーニングに関する競合するUnlearnCanvasベンチマークによる評価は、SAeUronの最先端のパフォーマンスを強調している。
さらに,1つのSAEでは,複数の概念を同時に取り除くことができ,他の手法とは対照的に,SeUronは敵攻撃下であっても,望ましくないコンテンツを生成する可能性を軽減できることを示す。
コードとチェックポイントは、https://github.com/cywinski/SAeUron.comで入手できる。
関連論文リスト
- Concept Bottleneck Models Without Predefined Concepts [26.156636891713745]
入力に依存した概念選択機構を導入し、すべてのクラスで小さな概念のサブセットが使用されることを保証します。
提案手法は, ダウンストリーム性能を改善し, ブラックボックスモデルの性能ギャップを狭めるものである。
論文 参考訳(メタデータ) (2024-07-04T13:34:50Z) - Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient [20.698305103879232]
我々はtextbfDoCo (textbfDomaintextbfCorrection) という新しい概念領域補正フレームワークを提案する。
本手法は, 対象概念の包括的未学習を保証し, 先進的学習を通して, センシティブな概念とアンカーの概念の出力領域を整合させることにより, 対象概念の包括的未学習を確実にする。
また、矛盾する勾配成分を緩和し、特定の概念を学習しながらモデルの実用性を維持するための概念保存的勾配手術手法も導入する。
論文 参考訳(メタデータ) (2024-05-24T07:47:36Z) - Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective [20.263233740360022]
拡散モデルから概念を消去するアンラーニング手法が開発されている。
本論文は,ブラックボックス環境下での非学習的ロバスト性を探索するために,敵攻撃の伝達可能性を活用することを目的とする。
具体的には、異なる未学習モデル間での移動が可能な逆埋め込みを探索するために、逆探索戦略を用いる。
論文 参考訳(メタデータ) (2024-04-30T09:14:54Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Latent Diffusion Counterfactual Explanations [28.574246724214962]
潜在拡散対実説明(LDCE)について紹介する。
LDCEは、最近のクラスまたはテキスト条件の潜在拡散モデルの能力を利用して、対実生成を高速化する。
LDCEがモデルエラーに対する洞察を提供し、ブラックボックスモデル行動の理解を深める方法を示す。
論文 参考訳(メタデータ) (2023-10-10T14:42:34Z) - Towards Safe Self-Distillation of Internet-Scale Text-to-Image Diffusion
Models [63.20512617502273]
テキストから画像への拡散モデルにおいて,問題のあるコンテンツ生成を防止するため,SDDと呼ばれる手法を提案する。
本手法は,画像の全体的な品質を劣化させることなく,生成した画像から有害なコンテンツをはるかに多く除去する。
論文 参考訳(メタデータ) (2023-07-12T07:48:29Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。