論文の概要: Decomposing The Dark Matter of Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.14670v2
- Date: Tue, 25 Mar 2025 17:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:13:37.204244
- Title: Decomposing The Dark Matter of Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダの暗黒物質を分解する
- Authors: Joshua Engels, Logan Riggs, Max Tegmark,
- Abstract要約: この研究は、ダークマターを研究対象として研究する。
SAEダークマターの多くは初期活性化ベクトルから線形に予測できることがわかった。
線形表現仮説に基づいて、これらの観測に繋がる活性化のモデルを提案する。
- 参考スコア(独自算出の注目度): 6.932760557251821
- License:
- Abstract: Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model performance, resulting in "dark matter": unexplained variance in activations. This work investigates dark matter as an object of study in its own right. Surprisingly, we find that much of SAE dark matter -- about half of the error vector itself and >90% of its norm -- can be linearly predicted from the initial activation vector. Additionally, we find that the scaling behavior of SAE error norms at a per token level is remarkably predictable: larger SAEs mostly struggle to reconstruct the same contexts as smaller SAEs. We build on the linear representation hypothesis to propose models of activations that might lead to these observations. These insights imply that the part of the SAE error vector that cannot be linearly predicted ("nonlinear" error) might be fundamentally different from the linearly predictable component. To validate this hypothesis, we empirically analyze nonlinear SAE error and show that 1) it contains fewer not yet learned features, 2) SAEs trained on it are quantitatively worse, and 3) it is responsible for a proportional amount of the downstream increase in cross entropy loss when SAE activations are inserted into the model. Finally, we examine two methods to reduce nonlinear SAE error: inference time gradient pursuit, which leads to a very slight decrease in nonlinear error, and linear transformations from earlier layer SAE outputs, which leads to a larger reduction.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルのアクティベーションを解釈可能な線形特徴に分解するための有望な手法である。
しかし、現在のSAEはモデルの性能を完全に説明できないため、結果として"暗黒物質"が生じる: アクティベーションの非説明分散である。
この研究は、ダークマターを研究対象として研究する。
驚くべきことに、SAEダークマターのほとんど(誤差ベクトルの約半分と標準の90%)は、初期活性化ベクトルから線形に予測できる。
さらに、トークン単位のSAEエラーノルムのスケーリング挙動は驚くほど予測可能であり、より大規模なSAEはより小さなSAEと同じコンテキストの再構築に苦慮している。
線形表現仮説に基づいて、これらの観測に繋がる活性化のモデルを提案する。
これらの知見は、線形予測できないSAE誤差ベクトルの一部(非線形誤差)が線形予測可能成分と根本的に異なる可能性を示唆している。
この仮説を検証するために、非線形SAE誤差を実験的に解析し、そのことを示す。
1) まだ学習されていない特徴が少ない。
2それに基づいて訓練されたSAEは定量的に悪化し、
3) モデルにSAE活性化を挿入した場合, 下流でのクロスエントロピー損失の比例的増加の原因となる。
最後に, 非線形SAEの誤差を低減する2つの手法について検討する: 推論時間勾配追従により, 非線形誤差が極めて小さくなり, 先行層SAE出力からの線形変換により, より小さくなる。
関連論文リスト
- Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs [0.0]
Sparse Autoencoder (SAE) 再構成誤差に対するKLのばらつきは, 改善されたベースラインと比較して, もはや病理学的に高くはない。
また,SAEが発見する特徴方向が,SAEの疎度に依存するモデル出力に与える影響も示した。
論文 参考訳(メタデータ) (2024-10-16T13:32:35Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - The Predictive Normalized Maximum Likelihood for Over-parameterized
Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。
最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。
我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-14T15:49:04Z) - Second-Moment Loss: A Novel Regression Objective for Improved
Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2020-12-23T14:17:33Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。