論文の概要: SplInterp: Improving our Understanding and Training of Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2505.11836v1
- Date: Sat, 17 May 2025 04:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.883417
- Title: SplInterp: Improving our Understanding and Training of Sparse Autoencoders
- Title(参考訳): SplInterp: スパースオートエンコーダの理解と訓練を改善する
- Authors: Jeremy Budd, Javier Ideami, Benjamin Macdowall Rynne, Keith Duggar, Randall Balestriero,
- Abstract要約: スパースオートエンコーダ (SAE) は機械的解釈可能性のツールとして近年注目されている。
SAEの真の有用性については近年疑問が持たれている。
我々は,SAEを訓練するための新しい近似交互手法 SGD (PAM-SGD) アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 10.800240155402417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have received considerable recent attention as tools for mechanistic interpretability, showing success at extracting interpretable features even from very large LLMs. However, this research has been largely empirical, and there have been recent doubts about the true utility of SAEs. In this work, we seek to enhance the theoretical understanding of SAEs, using the spline theory of deep learning. By situating SAEs in this framework: we discover that SAEs generalise ``$k$-means autoencoders'' to be piecewise affine, but sacrifice accuracy for interpretability vs. the optimal ``$k$-means-esque plus local principal component analysis (PCA)'' piecewise affine autoencoder. We characterise the underlying geometry of (TopK) SAEs using power diagrams. And we develop a novel proximal alternating method SGD (PAM-SGD) algorithm for training SAEs, with both solid theoretical foundations and promising empirical results in MNIST and LLM experiments, particularly in sample efficiency and (in the LLM setting) improved sparsity of codes. All code is available at: https://github.com/splInterp2025/splInterp
- Abstract(参考訳): スパースオートエンコーダ(SAE)は機械的解釈可能性のツールとして近年注目されており、非常に大きなLLMからでも解釈可能な特徴を抽出することに成功した。
しかし、この研究は概ね実証的であり、SAEの真の有用性に疑問が持たれている。
本研究では,深層学習のスプライン理論を用いて,SAEの理論的理解を高めることを目的とする。
SAEs が ``$k$-means autoencoders'' を断片的にアフィンであると一般化するが、解釈可能性に対する犠牲の精度は ``$k$-means-esque と局所主成分分析 (PCA)' の断片的にアフィンオートエンコーダに比例する。
パワーダイアグラムを用いた(TopK) SAEの基底幾何学を特徴付ける。
また,SAEを訓練するための新しい近似交互化法 SGD (PAM-SGD) アルゴリズムを開発した。
https://github.com/splInterp2025/splInterp
関連論文リスト
- Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。
本稿では,AFA (Approximate Activation Feature) を提案する。
トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
論文 参考訳(メタデータ) (2025-03-31T16:22:11Z) - Jacobian Sparse Autoencoders: Sparsify Computations, Not Just Activations [21.142967037533175]
本稿では,与えられたモデル成分の入力と出力のアクティベーションに空間性を生じるジャコビアンSAEと,それらを接続する計算(形式的にはジャコビアン)に空間性をもたらすヤコビアンSAEを提案する。
JSAEは,従来のSAEと同様,下流LLM性能を保ちながら,比較的広い範囲の計算空間を抽出することがわかった。
このことは、計算グラフの空間性が、LLMがトレーニングを通じて学習する特性であることを示すとともに、JSAEが標準のSAEよりも学習されたトランスフォーマー計算を理解するのに適していることを示唆している。
論文 参考訳(メタデータ) (2025-02-25T12:21:45Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
最近の研究は、ニューラルネットワーク表現の解釈可能な特徴を明らかにするためにスパースオートエンコーダ(SAE)を使用することを約束している。
しかし、SAEの単純な線形非線形符号化機構は、正確なスパース推論を行う能力を制限する。
SAEエンコーダは, 解決可能な場合であっても, 精度の高いスパース推論には本質的に不十分であることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:21:53Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。
この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。
Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文 参考訳(メタデータ) (2024-06-25T17:43:13Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。