論文の概要: Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation
- arxiv url: http://arxiv.org/abs/2512.23260v2
- Date: Mon, 05 Jan 2026 13:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.656741
- Title: Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation
- Title(参考訳): SAE-Constructed Low-Rank Subspace Adaptation による解釈可能な安全アライメント
- Authors: Dianyun Wang, Qingsen Ma, Yuhu Shang, Zhifeng Lu, Zhenbo Xu, Lechen Ning, Huijia Wu, Zhaofeng He,
- Abstract要約: 大規模な言語モデルをトレーニングし、有害な要求を拒否するためには、安全性の調整が不可欠である。
Low-Rank Adaptation (LoRA) は、安全ベンチマークにおける完全な微調整と強化学習を一貫して過小評価している。
このギャップに対処するため、SAILS (Safety Alignment via Interpretable Low-rank Subspace)を提案する。
- 参考スコア(独自算出の注目度): 13.509767769174422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment -- training large language models (LLMs) to refuse harmful requests while remaining helpful -- is critical for responsible deployment. Prior work established that safety behaviors are governed by low-rank structures, suggesting parameter-efficient fine-tuning (PEFT) should be well-suited for alignment. However, Low-Rank Adaptation (LoRA) consistently underperforms full fine-tuning and reinforcement learning on safety benchmarks. We attribute this gap to semantic entanglement: safety-relevant directions are intertwined with unrelated concepts due to polysemanticity, impeding implicit subspace identification. To address this, we propose SAILS (Safety Alignment via Interpretable Low-rank Subspace), which leverages Sparse Autoencoders (SAEs) to disentangle representations into monosemantic features, constructs an interpretable safety subspace from SAE decoder directions, and uses it to initialize LoRA adapters. Theoretically, we prove that SAE-based identification achieves arbitrarily small recovery error under monosemanticity assumptions, while direct identification suffers an irreducible error floor. Empirically, SAILS achieves up to 99.6% safety rate on Gemma-2-9B -- exceeding full fine-tuning by 7.4 points and matching RLHF-based models -- while updating only 0.19% of parameters and providing interpretability.
- Abstract(参考訳): 安全アライメント -- 大きな言語モデル(LLM)をトレーニングして、有害な要求を拒否し、役に立ち続ける — は、責任あるデプロイメントに不可欠である。
これまでの研究では、安全行動は低ランク構造で管理されており、パラメータ効率の細かい調整(PEFT)はアライメントに適していることが示唆されていた。
しかし、ローランド適応(LoRA)は、安全ベンチマークの完全な微調整と強化学習を一貫して不十分にしている。
このギャップは意味的絡み合いに起因しており、安全関連方向は多意味性によって非関係な概念と絡み合っており、暗黙的な部分空間識別を妨げる。
そこで本研究では,SAILS (Safety Alignment via Interpretable Low-rank Subspace) を提案する。Sparse Autoencoders (SAEs) を利用して表現をモノセマンティックな特徴に分解し,SAEデコーダ方向から解釈可能な安全部分空間を構築し,LoRAアダプタを初期化する。
理論的には、SAEに基づく識別は単行性仮定の下で任意に小さな回復誤差を達成でき、一方、直接識別は既約誤差フロアに悩まされる。
SAILSは、Gemma-2-9Bで最大99.6%の安全性を達成し、完全な微調整を7.4ポイント越え、RLHFベースのモデルにマッチする。
関連論文リスト
- RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification [17.66826792670962]
本稿では,安全かつ安全でない計画が線形に分離可能な潜在空間を学習することで,両視点を統一するニューロシンボリック検証器RepVを紹介する。
RepVは軽量なプロジェクタを訓練し、各プランと言語モデル生成の理論的根拠を低次元空間に組み込む。
RepVは、潜伏空間における位置に基づいて正しい検証の可能性を確率論的に保証する。
論文 参考訳(メタデータ) (2025-10-30T18:46:34Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Model Unlearning via Sparse Autoencoder Subspace Guided Projections [34.47648738350138]
大きな言語モデル(LLM)は大量の情報を格納するので、強力なプライバシと安全性の懸念が高まる。
グラデーションベースの微調整やモデル編集からスパースオートエンコーダのステアリングまで、既存の未学習戦略は解釈性に欠けるか、敵のプロンプトに対して堅牢な防御を提供しない。
我々は,SAE機能を活用した新たなフレームワークであるSAE-Guided Subspace Projection Unlearning (SSPU)を提案する。
論文 参考訳(メタデータ) (2025-05-30T10:07:52Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。