論文の概要: CRISP: Persistent Concept Unlearning via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2508.13650v1
- Date: Tue, 19 Aug 2025 09:01:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.864126
- Title: CRISP: Persistent Concept Unlearning via Sparse Autoencoders
- Title(参考訳): CRISP: スパースオートエンコーダによる永続的概念の学習
- Authors: Tomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov,
- Abstract要約: SAEを用いた持続的概念アンラーニングのためのパラメータ効率向上手法CRISPを紹介する。
CRISPは複数の層にまたがる健全なSAE機能を自動的に識別し、それらのアクティベーションを抑制する。
提案手法は,WMDPベンチマークによる安全クリティカルな未学習タスクにおいて,従来の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 39.99895847106416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are increasingly deployed in real-world applications, the need to selectively remove unwanted knowledge while preserving model utility has become paramount. Recent work has explored sparse autoencoders (SAEs) to perform precise interventions on monosemantic features. However, most SAE-based methods operate at inference time, which does not create persistent changes in the model's parameters. Such interventions can be bypassed or reversed by malicious actors with parameter access. We introduce CRISP, a parameter-efficient method for persistent concept unlearning using SAEs. CRISP automatically identifies salient SAE features across multiple layers and suppresses their activations. We experiment with two LLMs and show that our method outperforms prior approaches on safety-critical unlearning tasks from the WMDP benchmark, successfully removing harmful knowledge while preserving general and in-domain capabilities. Feature-level analysis reveals that CRISP achieves semantically coherent separation between target and benign concepts, allowing precise suppression of the target features.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界のアプリケーションにますます導入されるにつれて、モデルユーティリティを保ちながら不要な知識を選択的に除去する必要性が高まっている。
近年,モノセマンティックな特徴に対する精密な介入を行うために,スパースオートエンコーダ (SAE) を探索している。
しかし、ほとんどのSAEベースのメソッドは推論時に動作し、モデルのパラメータに永続的な変更を発生させない。
このような介入は、パラメータアクセスを持つ悪意のあるアクターによってバイパスまたは反転することができる。
SAEを用いた持続的概念アンラーニングのためのパラメータ効率向上手法CRISPを紹介する。
CRISPは複数の層にまたがる健全なSAE機能を自動的に識別し、アクティベーションを抑制する。
提案手法は,WMDPベンチマークによる安全クリティカルな未学習タスクにおいて,従来の手法よりも優れており,汎用性とドメイン内能力を維持しながら有害な知識の除去に成功していることを示す。
特徴レベルの分析により、CRISPはターゲット概念と良性概念のセマンティック・コヒーレントな分離を実現し、ターゲット特徴の正確な抑制を可能にすることが明らかになった。
関連論文リスト
- SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。
まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。
次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-07-30T04:28:00Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs [24.48560556882878]
精度未学習のための新しい手法である$textbfDynamic DAE Guardrails$ (DSG)を紹介した。
実験の結果,DSGは未学習を先導する手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2025-04-11T01:24:03Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [20.307151769610087]
連続的テスト時間適応(CTTA)は、目標ドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望な手法として登場した。
我々は3つのコアコンポーネントを特徴とするAMRODについて,CTTAシナリオにおける検出モデルに対するこれらの課題に対処する。
我々は,AMRODが既存の方法よりも優れている4つのCTTAオブジェクト検出タスクにおいて,AMRODの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。