論文の概要: Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation
- arxiv url: http://arxiv.org/abs/2512.23260v1
- Date: Mon, 29 Dec 2025 07:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.431137
- Title: Interpretable Safety Alignment via SAE-Constructed Low-Rank Subspace Adaptation
- Title(参考訳): SAE-Constructed Low-Rank Subspace Adaptation による解釈可能な安全アライメント
- Authors: Dianyun Wang, Qingsen Ma, Yuhu Shang, Zhifeng Lu, Lechen Ning, Zhenbo Xu, Huijia Wu, Zhaofeng He,
- Abstract要約: LoRAのような低ランク適応法は、タスク関連重み更新が低ランクの部分空間に存在し、解釈可能性や直接制御が提供されないという仮定の下で機能する。
我々は、事前訓練されたスパースオートエンコーダ(SAE)を利用して、不整形特徴空間におけるタスク関連特徴を特定し、明示的で解釈可能な低ランク部分空間を構築する。
提案手法は, 最大99.6%の安全性を実現し, 完全微調整を7.4ポイント, RLHF法に近づき, パラメータの0.19~0.24%を更新した。
- 参考スコア(独自算出の注目度): 13.509767769174422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning has become the dominant paradigm for adapting large language models to downstream tasks. Low-rank adaptation methods such as LoRA operate under the assumption that task-relevant weight updates reside in a low-rank subspace, yet this subspace is learned implicitly from data in a black-box manner, offering no interpretability or direct control. We hypothesize that this difficulty stems from polysemanticity--individual dimensions encoding multiple entangled concepts. To address this, we leverage pre-trained Sparse Autoencoders (SAEs) to identify task-relevant features in a disentangled feature space, then construct an explicit, interpretable low-rank subspace to guide adapter initialization. We provide theoretical analysis proving that under monosemanticity assumptions, SAE-based subspace identification achieves arbitrarily small recovery error, while direct identification in polysemantic space suffers an irreducible error floor. On safety alignment, our method achieves up to 99.6% safety rate--exceeding full fine-tuning by 7.4 percentage points and approaching RLHF-based methods--while updating only 0.19-0.24% of parameters. Crucially, our method provides interpretable insights into the learned alignment subspace through the semantic grounding of SAE features. Our work demonstrates that incorporating mechanistic interpretability into the fine-tuning process can simultaneously improve both performance and transparency.
- Abstract(参考訳): パラメータ効率のよい微調整は、下流タスクに大規模言語モデルを適用するための主要なパラダイムとなっている。
LoRAのような低ランク適応法は、タスク関連重み更新が低ランクのサブスペースに存在するという仮定の下で機能するが、この部分空間はブラックボックス方式でデータから暗黙的に学習され、解釈可能性や直接制御は提供されない。
この難しさは多意味性-複数の絡み合った概念をコードする個人次元に由来すると仮定する。
これを解決するために、事前訓練されたスパースオートエンコーダ(SAE)を利用して、不整形特徴空間におけるタスク関連特徴を識別し、明示的で解釈可能な低ランク部分空間を構築し、アダプタ初期化を誘導する。
本研究では,単セルマン性仮定の下では,SAEに基づく部分空間同定が任意に小さなリカバリ誤差を達成する一方で,多セルマン性空間における直接同定は既約誤差フロアを被ることを示す理論的解析を行う。
安全アライメントでは, 完全微調整を7.4ポイント, RLHF法に近づき, パラメータの0.19~0.24%が更新された。
重要なこととして,本手法は,SAE特徴のセマンティックグラウンドリングを通じて,学習したアライメント部分空間の解釈可能な洞察を提供する。
私たちの研究は、微調整プロセスに機械的解釈可能性を導入することで、パフォーマンスと透明性の両方を同時に改善できることを示しています。
関連論文リスト
- RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification [17.66826792670962]
本稿では,安全かつ安全でない計画が線形に分離可能な潜在空間を学習することで,両視点を統一するニューロシンボリック検証器RepVを紹介する。
RepVは軽量なプロジェクタを訓練し、各プランと言語モデル生成の理論的根拠を低次元空間に組み込む。
RepVは、潜伏空間における位置に基づいて正しい検証の可能性を確率論的に保証する。
論文 参考訳(メタデータ) (2025-10-30T18:46:34Z) - A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-Space [91.99501941169831]
GuardSpaceは、微調整全体を通して安全アライメントを維持するためのガードレールフレームワークである。
GSM8Kで微調整されたLlama-2-7B-Chatでは、ガードスペースは最先端のAsFTよりも優れている。
論文 参考訳(メタデータ) (2025-10-16T04:57:53Z) - Regularizing Subspace Redundancy of Low-Rank Adaptation [54.473090597164834]
本稿では、マッピング部分空間間の冗長性を明示的にモデル化し、低ランク適応のサブスペース冗長性を適応的に正規化する手法であるReSoRAを提案する。
提案手法は、視覚言語検索や標準的な視覚分類ベンチマークにおいて、様々なバックボーンやデータセットにまたがる既存のPETL手法を一貫して促進する。
トレーニングの監督として、ReSoRAは追加の推論コストなしで、プラグイン・アンド・プレイ方式で既存のアプローチにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-07-28T11:52:56Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Model Unlearning via Sparse Autoencoder Subspace Guided Projections [34.47648738350138]
大きな言語モデル(LLM)は大量の情報を格納するので、強力なプライバシと安全性の懸念が高まる。
グラデーションベースの微調整やモデル編集からスパースオートエンコーダのステアリングまで、既存の未学習戦略は解釈性に欠けるか、敵のプロンプトに対して堅牢な防御を提供しない。
我々は,SAE機能を活用した新たなフレームワークであるSAE-Guided Subspace Projection Unlearning (SSPU)を提案する。
論文 参考訳(メタデータ) (2025-05-30T10:07:52Z) - Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning [0.0]
プリトレーニング済みLLMのDP微調整は、タスク固有のデータセットのプライバシ保護に広く用いられている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。