論文の概要: Decomposing The Dark Matter of Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.14670v1
- Date: Fri, 18 Oct 2024 17:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:38.698953
- Title: Decomposing The Dark Matter of Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダの暗黒物質を分解する
- Authors: Joshua Engels, Logan Riggs, Max Tegmark,
- Abstract要約: この研究は、ダークマターを研究対象として研究する。
誤差ベクトルの約半分であるSAE暗黒物質の多くは、初期活性化ベクトルから線形に予測できる。
また,トークン単位のSAEエラーノルムのスケーリング挙動が著しく予測可能であることも確認した。
- 参考スコア(独自算出の注目度): 6.932760557251821
- License:
- Abstract: Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model performance, resulting in "dark matter": unexplained variance in activations. This work investigates dark matter as an object of study in its own right. Surprisingly, we find that much of SAE dark matter--about half of the error vector itself and >90% of its norm--can be linearly predicted from the initial activation vector. Additionally, we find that the scaling behavior of SAE error norms at a per token level is remarkably predictable: larger SAEs mostly struggle to reconstruct the same contexts as smaller SAEs. We build on the linear representation hypothesis to propose models of activations that might lead to these observations, including postulating a new type of "introduced error"; these insights imply that the part of the SAE error vector that cannot be linearly predicted ("nonlinear" error) might be fundamentally different from the linearly predictable component. To validate this hypothesis, we empirically analyze nonlinear SAE error and show that 1) it contains fewer not yet learned features, 2) SAEs trained on it are quantitatively worse, 3) it helps predict SAE per-token scaling behavior, and 4) it is responsible for a proportional amount of the downstream increase in cross entropy loss when SAE activations are inserted into the model. Finally, we examine two methods to reduce nonlinear SAE error at a fixed sparsity: inference time gradient pursuit, which leads to a very slight decrease in nonlinear error, and linear transformations from earlier layer SAE outputs, which leads to a larger reduction.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルのアクティベーションを解釈可能な線形特徴に分解するための有望な手法である。
しかし、現在のSAEはモデルの性能を完全に説明できないため、結果として"暗黒物質"が生じる: アクティベーションの非説明分散である。
この研究は、ダークマターを研究対象として研究する。
驚いたことに、SAEの暗黒物質の多くは、誤差ベクトルの約半分と標準値の90%で、初期活性化ベクトルから線形に予測できる。
さらに、トークン単位のSAEエラーノルムのスケーリング挙動は驚くほど予測可能であり、より大規模なSAEはより小さなSAEと同じコンテキストの再構築に苦慮している。
これらの知見は、線形予測できないSAEエラーベクトルの一部が線形予測可能成分と根本的に異なる可能性があることを示唆している。
この仮説を検証するために、非線形SAE誤差を実験的に解析し、そのことを示す。
1) まだ学習されていない特徴が少ない。
2) SAE は, 定量的に劣っている。
3)SAE/tokenスケーリング行動の予測に役立ちます。
4)SAEアクティベーションがモデルに挿入された場合,下流でのクロスエントロピー損失の比例的増加の原因となる。
最後に、固定間隔での非線形SAE誤差を低減する2つの方法について検討し、推論時間勾配追従により非線形誤差が極端に減少し、以前のSAE出力からの線形変換によりより小さくなることを示した。
関連論文リスト
- Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs [0.0]
Sparse Autoencoder (SAE) 再構成誤差に対するKLのばらつきは, 改善されたベースラインと比較して, もはや病理学的に高くはない。
また,SAEが発見する特徴方向が,SAEの疎度に依存するモデル出力に与える影響も示した。
論文 参考訳(メタデータ) (2024-10-16T13:32:35Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Improved Defect Detection and Classification Method for Advanced IC
Nodes by Using Slicing Aided Hyper Inference with Refinement Strategy [0.11184789007828977]
近年,高NA (Numerical Aperture) EUVL(Extreme-Ultraviolet-Lithography)パラダイムへの進展が進んでいる。
しかし、欠陥の顕著な増加と欠陥検出の複雑さは、高NAでより顕著になる。
本研究では,スライシング・エイドド・ハイパー推論(SAHI, Slicing Aided Hyper Inference)フレームワークの現行技術の改善について検討する。
論文 参考訳(メタデータ) (2023-11-19T22:24:19Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - The Predictive Normalized Maximum Likelihood for Over-parameterized
Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。
最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。
我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文 参考訳(メタデータ) (2021-02-14T15:49:04Z) - Understanding self-supervised Learning Dynamics without Contrastive
Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。
BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。
単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2021-02-12T22:57:28Z) - Second-Moment Loss: A Novel Regression Objective for Improved
Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2020-12-23T14:17:33Z) - Understanding and Mitigating the Tradeoff Between Robustness and
Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。
拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文 参考訳(メタデータ) (2020-02-25T08:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。