論文の概要: Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?
- arxiv url: http://arxiv.org/abs/2602.14111v1
- Date: Sun, 15 Feb 2026 11:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.65948
- Title: Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?
- Title(参考訳): サニティチェック:SAEはランダムなベースラインを上回るか?
- Authors: Anton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina,
- Abstract要約: スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
- 参考スコア(独自算出の注目度): 10.871959954490217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have emerged as a promising tool for interpreting neural networks by decomposing their activations into sparse sets of human-interpretable features. Recent work has introduced multiple SAE variants and successfully scaled them to frontier models. Despite much excitement, a growing number of negative results in downstream tasks casts doubt on whether SAEs recover meaningful features. To directly investigate this, we perform two complementary evaluations. On a synthetic setup with known ground-truth features, we demonstrate that SAEs recover only $9\%$ of true features despite achieving $71\%$ explained variance, showing that they fail at their core task even when reconstruction is strong. To evaluate SAEs on real activations, we introduce three baselines that constrain SAE feature directions or their activation patterns to random values. Through extensive experiments across multiple SAE architectures, we show that our baselines match fully-trained SAEs in interpretability (0.87 vs 0.90), sparse probing (0.69 vs 0.72), and causal editing (0.73 vs 0.72). Together, these results suggest that SAEs in their current state do not reliably decompose models' internal mechanisms.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、アクティベーションをスパースセットの人間解釈可能な特徴に分解することで、ニューラルネットワークを解釈するための有望なツールとして登場した。
最近の研究は複数のSAE変異体を導入し、フロンティアモデルへの拡張に成功した。
多くの興奮にもかかわらず、下流タスクにおけるネガティブな結果の増加は、SAEが有意義な特徴を回復するかどうかに疑問を投げかけている。
これを直接調査するため,2つの相補的評価を行った。
既知の地下構造を持つ合成装置において,SAE が真の特徴の 9 % のみを回復できることを実証した。
実アクティベーションにおけるSAEの評価には,SAEの特徴方向やそのアクティベーションパターンをランダムな値に制約する3つのベースラインを導入する。
複数のSAEアーキテクチャにわたる広範な実験を通して、我々のベースラインは解釈可能性(0.87対0.90)、スパースプローブ(0.69対0.72)、因果編集(0.73対0.72)において完全に訓練されたSAEと一致することを示した。
これらの結果は、SAEがモデルの内部メカニズムを確実に分解していないことを示唆している。
関連論文リスト
- SCALAR: Benchmarking SAE Interaction Sparsity in Toy LLMs [0.9121032932730987]
SAE特徴間の相互作用の空間性を測定するベンチマークであるSCALARを紹介する。
我々は、TopK SAEs、Jacobian SAEs(JSAEs)、Staircase SAEsを比較した。
我々の研究は、ベンチマークや有望なアーキテクチャの比較を通じて、SAEにおける相互作用の疎結合の重要性を強調します。
論文 参考訳(メタデータ) (2025-11-10T19:31:54Z) - Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。
解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。
本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文 参考訳(メタデータ) (2025-10-04T04:14:50Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [6.610766275883306]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。
SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。
特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文 参考訳(メタデータ) (2025-05-16T23:30:17Z) - Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Tasty Burgers, Soggy Fries: Probing Aspect Robustness in Aspect-Based
Sentiment Analysis [71.40390724765903]
アスペクトベースの感情分析(ABSA)は、テキストの特定の側面に対する感情を予測することを目的としている。
既存のABSAテストセットは、モデルが対象のアスペクトの感情を非ターゲットのアスペクトと区別できるかどうかを調査するために使用できない。
我々は、対象の側面の感情から、対象でない側面の相反する感情を解き放つための新しい例を生成する。
論文 参考訳(メタデータ) (2020-09-16T22:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。