論文の概要: Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2606.06333v1
- Date: Thu, 04 Jun 2026 16:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.934496
- Title: Subspace-Aware Sparse Autoencoders for Effective Mechanistic Interpretability
- Title(参考訳): 部分空間対応スパースオートエンコーダの有効機械論的解釈性
- Authors: Seyed Arshan Dalili, Mehrdad Mahdavi,
- Abstract要約: スパースオートエンコーダ(SAE)は、大規模言語モデルにおける機械的解釈可能性に広く用いられている。
この仮定はモデル特徴の多次元構造と一致しないことを示す。
本稿では,単一ベクトルデコーダを学習したデコーダサブスペースに置き換えるSubspace-Aware Sparse Autoencoders (SASA)を紹介する。
- 参考スコア(独自算出の注目度): 11.543771846135021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) are widely used for mechanistic interpretability in large language models, yet their formulation assigns each latent feature a single decoder direction, implicitly assuming features to be one-dimensional. We show that this assumption mismatches with the multi-dimensional structure of model features, provably inducing feature splitting through two distinct mechanisms. Geometrically, reconstructing a feature of intrinsic dimension $d_i \ge 2$ to error $\varepsilon$ with single-direction decoders forces a number of atoms that is exponential in $d_i$. From an end-to-end optimization perspective, this splitting is not merely possible but actively preferred. We prove that there exists a continuous path from the true $d_i$-dimensional basis to a strictly lower risk of the $\ell_1$-regularized SAE objective, whose descent directions drive any trained dictionary into that exponential regime. A single coherent feature is therefore fragmented across many near-collinear latents, producing spurious multiplicity and obscuring the intrinsic geometry. Motivated by this, we introduce Subspace-Aware Sparse Autoencoders (SASA), which replace single-vector decoders with learned decoder subspaces, enforce block sparsity via Top-$s$ group gating, and adapt each group's effective rank with a nuclear-norm regularizer. We then show that once the block size satisfies $r \ge d_i$, a single group not only can represent the entire feature slice but is the global minimizer of the SASA objective. This consolidation yields a sample complexity polynomial in $d_i$ rather than exponential -- a decisive advantage given that every training activation costs an LLM forward pass. Empirically, on GPT-2 and Mistral-7B, SASA reduces feature splitting and absorption, improves monosemanticity and interpretability, and matches or exceeds standard SAEs while training on roughly half the token budget.
- Abstract(参考訳): スパースオートエンコーダ (SAE) は、大規模言語モデルにおける機械論的解釈に広く用いられているが、それらの定式化では、各潜時特徴を1次元と暗黙的に仮定して、単一のデコーダ方向を割り当てている。
この仮定はモデル特徴の多次元構造と一致せず、2つの異なるメカニズムを通して特徴分割を誘発することを示す。
幾何学的には、固有次元 $d_i \ge 2$ の特徴を誤り $\varepsilon$ で再構成すると、単方向デコーダは $d_i$ で指数関数的な多くの原子を強制する。
エンドツーエンドの最適化の観点からは、この分割は単に可能ではなく、積極的に推奨される。
我々は、真の$d_i$-次元基底から$\ell_1$-regularized SAE目標の厳密に低いリスクへの連続経路が存在することを証明した。
したがって、単一のコヒーレントな特徴は、多くの近コヒーレントなラテントに断片化され、急激な多重性を生み出し、固有の幾何学を隠蔽する。
そこで我々は,SASA(Subspace-Aware Sparse Autoencoders)を導入し,SASA(Subspace-Aware Sparse Autoencoders)を導入した。
次に、ブロックサイズが$r \ge d_i$を満たすと、単一のグループが特徴スライス全体を表現できるだけでなく、SASAの目的の国際最小化であることを示す。
この統合により、指数関数ではなく$d_i$のサンプル複雑性多項式が得られる。
実証的には、GPT-2とMistral-7Bでは、SASAは機能分割と吸収を減らし、単意味性と解釈性を改善し、トークン予算の約半分でトレーニング中に標準のSAEと一致または超過する。
関連論文リスト
- Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Multinoulli Extension: A Lossless Continuous Relaxation for Partition-Constrained Subset Selection [60.07018090570548]
我々はパラメータフリーで、歪んだ局所探索法と同じ近似保証を実現できるMultinoulliSCGという新しいアルゴリズムを導入する。
また、分割制約に関する未探索オンラインサブセット選択問題に対して、Multinoulli-CGとMultinoulli-GAGAという2つの新しいオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-23T02:30:01Z) - Learning Accurate Segmentation Purely from Self-Supervision [87.78965637247107]
Selfmentは完全に自己管理型のフレームワークで、人間のラベルなしでオブジェクトを生画像から直接分割する。
Selfmentは、複数のベンチマークで新しい最先端(SoTA)結果を設定する。
論文 参考訳(メタデータ) (2026-02-27T07:36:32Z) - Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。
我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文 参考訳(メタデータ) (2025-12-31T04:19:33Z) - Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
近似的特徴アクティベーション(AFA)の定式化に基づく新しいアクティベーション関数 Top-AFA を導入する。
3つの中間層上のSAEをトレーニングして、OpenWebTextデータセットから8000万以上のトークンに対して、GPT2の隠れ埋め込みを再構築することにより、このアプローチの実証的なメリットを実演する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。