Fugu-MT 論文翻訳(概要): Decomposing The Dark Matter of Sparse Autoencoders

論文の概要: Decomposing The Dark Matter of Sparse Autoencoders

arxiv url: http://arxiv.org/abs/2410.14670v1
Date: Fri, 18 Oct 2024 17:58:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.609617
Title: Decomposing The Dark Matter of Sparse Autoencoders
Title（参考訳）: スパースオートエンコーダの暗黒物質を分解する
Authors: Joshua Engels, Logan Riggs, Max Tegmark,
Abstract要約: この研究は、ダークマターを研究対象として研究する。誤差ベクトルの約半分であるSAE暗黒物質の多くは、初期活性化ベクトルから線形に予測できる。また,トークン単位のSAEエラーノルムのスケーリング挙動が著しく予測可能であることも確認した。
参考スコア（独自算出の注目度）: 6.932760557251821
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model performance, resulting in "dark matter": unexplained variance in activations. This work investigates dark matter as an object of study in its own right. Surprisingly, we find that much of SAE dark matter--about half of the error vector itself and >90% of its norm--can be linearly predicted from the initial activation vector. Additionally, we find that the scaling behavior of SAE error norms at a per token level is remarkably predictable: larger SAEs mostly struggle to reconstruct the same contexts as smaller SAEs. We build on the linear representation hypothesis to propose models of activations that might lead to these observations, including postulating a new type of "introduced error"; these insights imply that the part of the SAE error vector that cannot be linearly predicted ("nonlinear" error) might be fundamentally different from the linearly predictable component. To validate this hypothesis, we empirically analyze nonlinear SAE error and show that 1) it contains fewer not yet learned features, 2) SAEs trained on it are quantitatively worse, 3) it helps predict SAE per-token scaling behavior, and 4) it is responsible for a proportional amount of the downstream increase in cross entropy loss when SAE activations are inserted into the model. Finally, we examine two methods to reduce nonlinear SAE error at a fixed sparsity: inference time gradient pursuit, which leads to a very slight decrease in nonlinear error, and linear transformations from earlier layer SAE outputs, which leads to a larger reduction.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、言語モデルのアクティベーションを解釈可能な線形特徴に分解するための有望な手法である。しかし、現在のSAEはモデルの性能を完全に説明できないため、結果として"暗黒物質"が生じる: アクティベーションの非説明分散である。この研究は、ダークマターを研究対象として研究する。驚いたことに、SAEの暗黒物質の多くは、誤差ベクトルの約半分と標準値の90%で、初期活性化ベクトルから線形に予測できる。さらに、トークン単位のSAEエラーノルムのスケーリング挙動は驚くほど予測可能であり、より大規模なSAEはより小さなSAEと同じコンテキストの再構築に苦慮している。これらの知見は、線形予測できないSAEエラーベクトルの一部が線形予測可能成分と根本的に異なる可能性があることを示唆している。この仮説を検証するために、非線形SAE誤差を実験的に解析し、そのことを示す。 1) まだ学習されていない特徴が少ない。 2) SAE は, 定量的に劣っている。 3)SAE/tokenスケーリング行動の予測に役立ちます。 4)SAEアクティベーションがモデルに挿入された場合,下流でのクロスエントロピー損失の比例的増加の原因となる。最後に、固定間隔での非線形SAE誤差を低減する2つの方法について検討し、推論時間勾配追従により非線形誤差が極端に減少し、以前のSAE出力からの線形変換によりより小さくなることを示した。

関連論文リスト

Pretrained LLMs Learn Multiple Types of Uncertainty [23.807232455808613]
大規模言語モデルは現実世界の知識を捉えることで知られており、下流の多くのタスクに精通することができる。本研究では,LLMが不確実性をどのように捉えているのかを,それに対して明示的に訓練されることなく検討する。モデルの潜在空間における線形概念としての不確実性を考えると、事前訓練後にのみ捕捉されることが示される。
論文参考訳（メタデータ） (2025-05-27T14:06:15Z)
Feature Hedging: Correlated Features Break Narrow Sparse Autoencoders [1.0582505915332336]
スパースオートエンコーダ(SAE)は多意味的な活性化を解釈可能な線形方向へ分解する。 SAEがトレーニング対象の「真の特徴」の数よりも狭く、特徴の間に相関関係がある場合、SAEは関連する特徴のコンポーネントをマージする。特徴ヘッジ(feature hedging)と呼ばれるこの現象は、SAE再建損失によって引き起こされ、SAEがより狭くなるほど深刻である。
論文参考訳（メタデータ） (2025-05-16T23:30:17Z)
Evaluating and Designing Sparse Autoencoders by Approximating Quasi-Orthogonality [3.9230690073443166]
そこで本研究では,スパース特徴ベクトルの大きさを,その正則な閉形式誤差境界を持つ密度ベクトルを用いて近似できることを示す。本稿では,AFA (Approximate Activation Feature) を提案する。トップAFA SAE は最先端の最先端 SAE に匹敵する再構築損失を達成できることを実証する。
論文参考訳（メタデータ） (2025-03-31T16:22:11Z)
Robustness of Nonlinear Representation Learning [60.15898117103069]
本研究では,教師なし表現学習の問題を,わずかに不特定な環境で研究する。混合は線形変換と小さな誤差で識別可能であることを示す。これらの結果は、実世界のデータに対する教師なし表現学習における識別可能性向上へのステップである。
論文参考訳（メタデータ） (2025-03-19T15:57:03Z)
Tokenized SAEs: Disentangling SAE Reconstructions [0.9821874476902969]
RES-JB SAEの特徴は, 単純な入力統計値に主に対応していることを示す。特徴再構成からトークン再構成を分離する手法を提案する。
論文参考訳（メタデータ） (2025-02-24T17:04:24Z)
Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。理論的な洞察と経験的検証の両方を、近年のモデルで提供します。量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文参考訳（メタデータ） (2025-02-10T20:09:16Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Investigating Sensitive Directions in GPT-2: An Improved Baseline and Comparative Analysis of SAEs [0.0]
Sparse Autoencoder (SAE) 再構成誤差に対するKLのばらつきは, 改善されたベースラインと比較して, もはや病理学的に高くはない。また,SAEが発見する特徴方向が,SAEの疎度に依存するモデル出力に与える影響も示した。
論文参考訳（メタデータ） (2024-10-16T13:32:35Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Improved Defect Detection and Classification Method for Advanced IC Nodes by Using Slicing Aided Hyper Inference with Refinement Strategy [0.11184789007828977]
近年,高NA (Numerical Aperture) EUVL(Extreme-Ultraviolet-Lithography)パラダイムへの進展が進んでいる。しかし、欠陥の顕著な増加と欠陥検出の複雑さは、高NAでより顕著になる。本研究では,スライシング・エイドド・ハイパー推論(SAHI, Slicing Aided Hyper Inference)フレームワークの現行技術の改善について検討する。
論文参考訳（メタデータ） (2023-11-19T22:24:19Z)
Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文参考訳（メタデータ） (2023-10-05T02:35:00Z)
Understanding Augmentation-based Self-Supervised Representation Learning via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文参考訳（メタデータ） (2023-06-01T15:18:55Z)
On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文参考訳（メタデータ） (2021-07-27T09:13:11Z)
Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文参考訳（メタデータ） (2021-06-03T09:34:17Z)
The Predictive Normalized Maximum Likelihood for Over-parameterized Linear Regression with Norm Constraint: Regret and Double Descent [12.929639356256928]
現代の機械学習モデルは、予測規則の複雑さとその一般化能力の間のトレードオフに従わないことを示す。最近提案された予測正規化最大値 (pNML) は、個々のデータに対するmin-max後悔解である。我々は,pNML後悔を合成データ上でのポイントワイド学習可能性尺度として使用し,二重発生現象の予測に成功していることを示す。
論文参考訳（メタデータ） (2021-02-14T15:49:04Z)
Understanding self-supervised Learning Dynamics without Contrastive Pairs [72.1743263777693]
自己監視学習(SSL)に対する対照的アプローチは、同じデータポイントの2つの拡張ビュー間の距離を最小限にすることで表現を学習する。 BYOLとSimSiamは、負のペアなしで素晴らしいパフォーマンスを示す。単純線形ネットワークにおける非コントラストSSLの非線形学習ダイナミクスについて検討する。
論文参考訳（メタデータ） (2021-02-12T22:57:28Z)
Second-Moment Loss: A Novel Regression Objective for Improved Uncertainties [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文参考訳（メタデータ） (2020-12-23T14:17:33Z)
Understanding and Mitigating the Tradeoff Between Robustness and Accuracy [88.51943635427709]
逆行訓練は、堅牢なエラーを改善するために、摂動でトレーニングセットを増強する。拡張摂動が最適線形予測器からノイズのない観測を行う場合であっても,標準誤差は増大する可能性がある。
論文参考訳（メタデータ） (2020-02-25T08:03:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。