論文の概要: Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
- arxiv url: http://arxiv.org/abs/2503.24277v1
- Date: Mon, 31 Mar 2025 16:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:53.902862
- Title: Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality
- Title(参考訳): 準直交性近似によるスパースオートエンコーダの評価と設計
- Authors: Sewoong Lee, Adam Davies, Marc E. Canby, Julia Hockenmaier,
- Abstract要約: そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。
本稿では,AFA (Approximate Activation Feature) を提案する。
トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
- 参考スコア(独自算出の注目度): 3.9230690073443166
- License:
- Abstract: Sparse autoencoders (SAEs) have emerged as a workhorse of modern mechanistic interpretability, but leading SAE approaches with top-$k$ style activation functions lack theoretical grounding for selecting the hyperparameter $k$. SAEs are based on the linear representation hypothesis (LRH), which assumes that the representations of large language models (LLMs) are linearly encoded, and the superposition hypothesis (SH), which states that there can be more features in the model than its dimensionality. We show that, based on the formal definitions of the LRH and SH, the magnitude of sparse feature vectors (the latent representations learned by SAEs of the dense embeddings of LLMs) can be approximated using their corresponding dense vector with a closed-form error bound. To visualize this, we propose the ZF plot, which reveals a previously unknown relationship between LLM hidden embeddings and SAE feature vectors, allowing us to make the first empirical measurement of the extent to which feature vectors of pre-trained SAEs are over- or under-activated for a given input. Correspondingly, we introduce Approximate Feature Activation (AFA), which approximates the magnitude of the ground-truth sparse feature vector, and propose a new evaluation metric derived from AFA to assess the alignment between inputs and activations. We also leverage AFA to introduce a novel SAE architecture, the top-AFA SAE, leading to SAEs that: (a) are more in line with theoretical justifications; and (b) obviate the need to tune SAE sparsity hyperparameters. Finally, we empirically demonstrate that top-AFA SAEs achieve reconstruction loss comparable to that of state-of-the-art top-k SAEs, without requiring the hyperparameter $k$ to be tuned. Our code is available at: https://github.com/SewoongLee/top-afa-sae.
- Abstract(参考訳): スパースオートエンコーダ (SAEs) は、現代の機械論的解釈可能性のワークホースとして登場したが、上位$k$スタイルのアクティベーション関数を持つSAEアプローチでは、ハイパーパラメータ$k$を選択する理論的根拠が欠如している。
SAE は線形表現仮説 (LRH) に基づいており、これは大きな言語モデル (LLM) の表現が線形符号化されていると仮定し、重ね合わせ仮説 (SH) はモデルにその次元よりも多くの特徴があることを示している。
LRH と SH の形式的定義に基づき、スパース特徴ベクトル(LSM の密埋め込みの SAE によって学習される潜在表現)の大きさを、その対応する密閉ベクトルと閉形式誤差境界を用いて近似できることを示す。
そこで本稿では,LLMの隠れ埋め込みとSAE特徴ベクトルとの関係を明らかにするZFプロットを提案する。
そこで本研究では,AFAから派生した新たな評価指標を提案し,入力とアクティベーションのアライメントを評価する。
私たちはまた、AFAを活用して、新しいSAEアーキテクチャ、トップAFA SAEを導入します。
(a)理論上の正当性に沿うもの,及び
(b)SAE間隔ハイパーパラメータを調整する必要がなくなる。
最後に、トップAFAのSAEが、高度パラメータ$k$を調整することなく、最先端のトップkのSAEに匹敵する再構築損失を達成できることを実証的に示す。
私たちのコードは、https://github.com/SewoongLee/top-afa-sae.comで利用可能です。
関連論文リスト
- AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Evaluating Sparse Autoencoders on Targeted Concept Erasure Tasks [1.4565166775409717]
スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な単位に分解することを目的とした解釈可能性技術である。
我々は,マークスらによる下流作業である ShiFT に基づく評価のファミリを紹介する。
我々は ShiFT をSAE 品質の自動測定基準に適合させ,人間のアノテーションを LLM に置き換える。
また、SAEが同様の概念を解き放つ能力を定量化するTPP(Targeted Probe Perturbation)指標も導入する。
論文 参考訳(メタデータ) (2024-11-28T03:58:48Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Latent space configuration for improved generalization in supervised
autoencoder neural networks [0.0]
所望のトポロジを持つLSを得るための2つの手法を提案する。
LS構成を知ることで、LSで類似度尺度を定義し、ラベルを予測したり、複数の入力に対して類似度を推定することができる。
提案手法を用いて衣服のテクスチャ分類を訓練したSAEは,細調整をせずに,LIP,Market1501,WildTrackのデータセットから見当たらないデータによく一般化することを示した。
論文 参考訳(メタデータ) (2024-02-13T13:25:51Z) - Symmetric Equilibrium Learning of VAEs [56.56929742714685]
可変オートエンコーダ(VAE)をデコーダ-エンコーダペアとみなし,データ空間内の分布を潜在空間内の分布にマッピングする。
本研究では,エンコーダとデコーダに対して対称なナッシュ均衡学習手法を提案し,データと潜伏分布の両方がサンプリングによってのみアクセス可能な状況下でのVAEの学習を可能にする。
論文 参考訳(メタデータ) (2023-07-19T10:27:34Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - Learning Efficient Coding of Natural Images with Maximum Manifold
Capacity Representations [4.666056064419346]
効率的な符号化仮説は、感覚系の応答特性が入力の統計に適応していることを提案する。
エレガントではあるものの、情報理論の特性は実際的な設定や最適化の目的関数として使うのが難しいことで知られている。
ここでは、多様体の容量を直接最適化し、最大多様体容量表現(MMCR)が得られるという仮定を概説する。
論文 参考訳(メタデータ) (2023-03-06T17:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。