論文の概要: Understanding sparse autoencoder scaling in the presence of feature manifolds
- arxiv url: http://arxiv.org/abs/2509.02565v2
- Date: Thu, 04 Sep 2025 17:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:59.173006
- Title: Understanding sparse autoencoder scaling in the presence of feature manifolds
- Title(参考訳): 特徴多様体の存在下でのスパースオートエンコーダスケーリングの理解
- Authors: Eric J. Michaud, Liv Gorton, Tom McGrath,
- Abstract要約: 我々は、SAEスケーリングを理解するために、ニューラルスケーリング文献からキャパシティアロケーションモデルを適用する。
我々は,SAEが野生の病的状態にあるかどうかを論じる。
- 参考スコア(独自算出の注目度): 5.2924382061650395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) model the activations of a neural network as linear combinations of sparsely occurring directions of variation (latents). The ability of SAEs to reconstruct activations follows scaling laws w.r.t. the number of latents. In this work, we adapt a capacity-allocation model from the neural scaling literature (Brill, 2024) to understand SAE scaling, and in particular, to understand how "feature manifolds" (multi-dimensional features) influence scaling behavior. Consistent with prior work, the model recovers distinct scaling regimes. Notably, in one regime, feature manifolds have the pathological effect of causing SAEs to learn far fewer features in data than there are latents in the SAE. We provide some preliminary discussion on whether or not SAEs are in this pathological regime in the wild.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を、わずかに発生する変動方向(遅延)の線形結合としてモデル化する。
SAEが活性化を再構築する能力は、潜伏者数に関するスケーリング法に従っている。
本研究では,SAEスケーリングを理解するために,ニューラルスケーリング文献(Brill,2024)からのキャパシティアロケーションモデルを適用し,特に「機能多様体」(多次元特徴)がスケーリング行動にどのように影響するかを理解する。
以前の作業と一致して、モデルは異なるスケーリング体制を回復する。
特に、ある状態において、特徴多様体は、SAEに潜伏しているものよりも、データの中でより少ない特徴を学習させるという病理学的効果を持つ。
我々は,SAEが野生のこの病的状態にあるか否かについて,予備的な議論を行う。
関連論文リスト
- Sparse Autoencoder Neural Operators: Model Recovery in Function Spaces [75.45093712182624]
本研究では,スパースオートエンコーダ(SAE)を昇降空間や無限次元関数空間に拡張し,大規模ニューラル演算子(NO)の機械的解釈性を実現するフレームワークを提案する。
我々は、SAE、リフト-SAE、SAEニューラル演算子の推論とトレーニングのダイナミクスを比較した。
我々は、リフトと演算子モジュールが有益な帰納バイアスを導入し、より高速なリカバリを可能にし、スムーズな概念のリカバリを改善し、様々な解像度にわたる堅牢な推論を可能にした点を強調した。
論文 参考訳(メタデータ) (2025-09-03T21:57:03Z) - Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Emergent Symbol-like Number Variables in Artificial Neural Networks [34.388552536773034]
単純化されたシンボリックアルゴリズム(SA)のレンズを用いて生のNN活性を解釈できることが示される。
我々はDASフレームワークをより広範なアライメント関数のクラスに拡張し、SAからの解釈可能な変数の観点からNNアクティビティをより柔軟にキャプチャする。
繰り返しモデルでは, 神経活動において, 次数的, 記号的数変数が生成できることが示されている。
論文 参考訳(メタデータ) (2025-01-10T18:03:46Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Can sparse autoencoders make sense of gene expression latent variable models? [0.0]
この研究は、複雑な、高次元の生物学的データへの埋め込みを分解するためのSAEの可能性を探るものである。
事前訓練された単一細胞モデルからの埋め込みへの応用は、SAEが重要な生物学的プロセスを見つけ、管理できることを示している。
scFeatureLensは、SAEの特徴と遺伝子セットから生物学的概念をリンクするための自動解釈可能性アプローチである。
論文 参考訳(メタデータ) (2024-10-15T10:16:01Z) - Mechanistic Permutability: Match Features Across Layers [4.2056926734482065]
SAE Matchは、ニューラルネットワークの異なる層にまたがってSAE機能を整列するための、新しいデータフリーな手法である。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
論文 参考訳(メタデータ) (2024-10-10T06:55:38Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。