論文の概要: Model Unlearning via Sparse Autoencoder Subspace Guided Projections
- arxiv url: http://arxiv.org/abs/2505.24428v1
- Date: Fri, 30 May 2025 10:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.896258
- Title: Model Unlearning via Sparse Autoencoder Subspace Guided Projections
- Title(参考訳): スパースオートエンコーダサブスペース投影によるモデルアンラーニング
- Authors: Xu Wang, Zihao Li, Benyou Wang, Yan Hu, Difan Zou,
- Abstract要約: 大きな言語モデル(LLM)は大量の情報を格納するので、強力なプライバシと安全性の懸念が高まる。
グラデーションベースの微調整やモデル編集からスパースオートエンコーダのステアリングまで、既存の未学習戦略は解釈性に欠けるか、敵のプロンプトに対して堅牢な防御を提供しない。
我々は,SAE機能を活用した新たなフレームワークであるSAE-Guided Subspace Projection Unlearning (SSPU)を提案する。
- 参考スコア(独自算出の注目度): 34.47648738350138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) store vast amounts of information, making them powerful yet raising privacy and safety concerns when selective knowledge removal is required. Existing unlearning strategies, ranging from gradient-based fine-tuning and model editing to sparse autoencoder (SAE) steering, either lack interpretability or fail to provide a robust defense against adversarial prompts. We propose SAE-Guided Subspace Projection Unlearning (SSPU), a novel framework that leverages SAE features to drive targeted updates in the model's parameter space, enabling precise, interpretable, and robust unlearning. SSPU's three-stage pipeline performs data-driven layer and feature selection, subspace construction via QR decomposition, and constrained optimization that controls activations into an "irrelevant" subspace while preserving retained knowledge. Overall, we use SAE features to construct a subspace that supervises unlearning, refining the loss and adding a regularization term to guide interpretable parameter updates. In experiments on the WMDP-Cyber forget set and three utility benchmarks (MMLU, TruthfulQA, GSM8K), SSPU reduces harmful knowledge accuracy by 3.22% compared to the strongest baseline. It also improves adversarial robustness, lowering malicious accuracy under jailbreak prompts compared to baselines. Our findings expose the limitations of prior unlearning methods and demonstrate how interpretable subspace-guided optimization can achieve robust, controllable model behavior.
- Abstract(参考訳): 大規模言語モデル(LLM)は大量の情報を格納するので、選択的な知識の除去が必要な場合、プライバシと安全性の懸念が高まる。
既存の未学習戦略は、勾配に基づく微調整やモデル編集からスパースオートエンコーダ(SAE)ステアリングまで、解釈可能性の欠如、あるいは敵のプロンプトに対する堅牢な防御手段の提供に失敗した。
SAE-Guided Subspace Projection Unlearning (SSPU) は、SAEの機能を活用し、モデルパラメータ空間のターゲット更新を駆動し、正確で、解釈可能で、堅牢な未学習を可能にする新しいフレームワークである。
SSPUの3段階パイプラインは、データ駆動層と機能選択、QR分解によるサブスペース構成、そして、保持された知識を維持しながら、アクティベーションを"非関連"サブスペースに制御する制約付き最適化を実行する。
全体として、SAE機能を使用して、未学習を監督し、損失を補正し、解釈可能なパラメータ更新をガイドするための正規化項を追加するサブスペースを構築する。
WMDP-Cyberでの実験では、3つのユーティリティベンチマーク(MMLU、TruthfulQA、GSM8K)で、SSPUは最強のベースラインと比較して有害な知識の精度を3.22%削減する。
また、敵の堅牢性も向上し、ベースラインに比べてジェイルブレイクのプロンプトで悪意のある精度が低下する。
本研究では,従来の未学習手法の限界を明らかにするとともに,解釈可能な部分空間誘導最適化が頑健で制御可能なモデル動作を実現する方法を示す。
関連論文リスト
- SAE-SSV: Supervised Steering in Sparse Representation Spaces for Reliable Control of Language Models [41.553639748766784]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では,スパースで解釈可能な表現空間で動作する新しい教師付きステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:57Z) - UniErase: Unlearning Token as a Universal Erasure Primitive for Language Models [54.75551043657238]
学習可能なパラメトリック接尾辞(アンラーニングトークン)を用いて、ターゲットとなる忘れ行動に向けて言語モデルを操る新しいアンラーニングパラダイムであるUniEraseを紹介する。
UniEraseは、実世界の知識設定の下で、バッチ、シーケンシャル、そして正確なアンラーニングで、最先端のSOTA(State-of-the-art)パフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - SAEs $\textit{Can}$ Improve Unlearning: Dynamic Sparse Autoencoder Guardrails for Precision Unlearning in LLMs [24.48560556882878]
精度未学習のための新しい手法である$textbfDynamic DAE Guardrails$ (DSG)を紹介した。
実験の結果,DSGは未学習を先導する手法よりもかなり優れていた。
論文 参考訳(メタデータ) (2025-04-11T01:24:03Z) - Towards LLM Guardrails via Sparse Representation Steering [11.710399901426873]
大規模言語モデル(LLM)は、自然言語生成タスクにおいて顕著な性能を示した。
SREと呼ばれるスパース符号化に基づく表現工学手法を提案し、ポリセマンティックなアクティベーションを構造化された単セマンティックな特徴空間に分解する。
スパースオートエンコーディングを活用することで,タスク固有のスパース特徴次元のみを分離・調整し,モデル動作の精密かつ解釈可能なステアリングを可能にする。
論文 参考訳(メタデータ) (2025-03-21T04:50:25Z) - Don't Forget It! Conditional Sparse Autoencoder Clamping Works for Unlearning [0.306238659426286]
大きな言語モデル(LLM)の能力は大きな可能性をもたらしていますが、新たなリスクも生じています。
例えば、生物兵器、先進化学、サイバー攻撃の知識を持つLSMは、間違った手や故障時に暴力を引き起こす可能性がある。
近黒の箱としての性質から、LLM内部の直観的な解釈は依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2025-03-14T06:43:19Z) - SPARC: Subspace-Aware Prompt Adaptation for Robust Continual Learning in LLMs [4.194295877935867]
大規模言語モデル(LLM)のための軽量連続学習フレームワークを提案する。
本手法はタスク・インクリメンタル・ドメイン・インクリメンタル・ラーニング・セットアップにおいて高い知識保持を実現する。
SuperGLUEベンチマークの実験では、PCAベースのプロンプトチューニングとLoRAが組み合わさって、完全知識保持を維持しながら精度を向上し、モデルのパラメータの1%しか利用していないことが示されている。
論文 参考訳(メタデータ) (2025-02-05T06:11:55Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。