論文の概要: Understanding sparse autoencoder scaling in the presence of feature manifolds
- arxiv url: http://arxiv.org/abs/2509.02565v1
- Date: Tue, 02 Sep 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.139424
- Title: Understanding sparse autoencoder scaling in the presence of feature manifolds
- Title(参考訳): 特徴多様体の存在下でのスパースオートエンコーダスケーリングの理解
- Authors: Eric J. Michaud, Liv Gorton, Tom McGrath,
- Abstract要約: 我々は、SAEスケーリングを理解するために、ニューラルスケーリング文献からキャパシティアロケーションモデルを適用する。
我々は,SAEが野生の病的状態にあるかどうかを論じる。
- 参考スコア(独自算出の注目度): 5.2924382061650395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) model the activations of a neural network as linear combinations of sparsely occurring directions of variation (latents). The ability of SAEs to reconstruct activations follows scaling laws w.r.t. the number of latents. In this work, we adapt a capacity-allocation model from the neural scaling literature (Brill, 2024) to understand SAE scaling, and in particular, to understand how "feature manifolds" (multi-dimensional features) influence scaling behavior. Consistent with prior work, the model recovers distinct scaling regimes. Notably, in one regime, feature manifolds have the pathological effect of causing SAEs to learn far fewer features in data than there are latents in the SAE. We provide some preliminary discussion on whether or not SAEs are in this pathological regime in the wild.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を、わずかに発生する変動方向(遅延)の線形結合としてモデル化する。
SAEが活性化を再構築する能力は、潜伏者数に関するスケーリング法に従っている。
本研究では,SAEスケーリングを理解するために,ニューラルスケーリング文献(Brill,2024)からのキャパシティアロケーションモデルを適用し,特に「機能多様体」(多次元特徴)がスケーリング行動にどのように影響するかを理解する。
以前の作業と一致して、モデルは異なるスケーリング体制を回復する。
特に、ある状態において、特徴多様体は、SAEに潜伏しているものよりも、データの中でより少ない特徴を学習させるという病理学的効果を持つ。
我々は,SAEが野生のこの病的状態にあるか否かについて,予備的な議論を行う。
関連論文リスト
- Dense SAE Latents Are Features, Not Bugs [75.08462524662072]
言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
論文 参考訳(メタデータ) (2025-06-18T17:59:35Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Automatically Interpreting Millions of Features in Large Language Models [1.8035046415192353]
スパースオートエンコーダ(SAE)は、活性化を高次元の潜在空間に変換するために用いられる。
SAEの機能に関する自然言語の説明を生成・評価するためのオープンソースのパイプラインを構築します。
我々の大規模分析は、SAE潜伏剤がニューロンよりもはるかに解釈可能であることを確認しています。
論文 参考訳(メタデータ) (2024-10-17T17:56:01Z) - Mechanistic Permutability: Match Features Across Layers [4.2056926734482065]
SAE Matchは、ニューラルネットワークの異なる層にまたがってSAE機能を整列するための、新しいデータフリーな手法である。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
論文 参考訳(メタデータ) (2024-10-10T06:55:38Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。