論文の概要: Dense SAE Latents Are Features, Not Bugs
- arxiv url: http://arxiv.org/abs/2506.15679v1
- Date: Wed, 18 Jun 2025 17:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.780954
- Title: Dense SAE Latents Are Features, Not Bugs
- Title(参考訳): SAE潜水艇はバグではなく特徴
- Authors: Xiaoqing Sun, Alessandro Stolfo, Joshua Engels, Ben Wu, Senthooran Rajamanoharan, Mrinmaya Sachan, Max Tegmark,
- Abstract要約: 言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
- 参考スコア(独自算出の注目度): 75.08462524662072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are \emph{dense}), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs -- suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、スパース性制約を強制することにより、言語モデルから解釈可能な特徴を抽出するように設計されている。
理想的には、SAEのトレーニングは、スパースかつセマンティックに意味のある潜伏者を生み出す。
しかし、多くのSAE潜伏剤は頻繁に活性化し(すなわち、emph{dense} である)、訓練手順の望ましくない人工物かもしれないという懸念を提起する。
本研究では,高密度ラテントの幾何学,関数,起源を体系的に研究し,それらが永続性だけでなく,しばしば意味のあるモデル表現を反映していることを示す。
まず、高密度潜伏剤は残留流の特定の方向を再構成する反足動物対を形成する傾向にあり、その部分空間を非難することで、再訓練されたSAEにおける新しい高密度特徴の出現を抑制することが示され、高密度特徴が残留空間の本質的な性質であることを示唆している。
次に、位置追跡、文脈結合、エントロピー制御、文字固有の出力信号、音声のパート・オブ・音声、および主成分再構成に関連するクラスを特定する。
最後に、これらの機能が層を横断してどのように進化するかを分析し、初期層の構造的特徴から中層のセマンティックな特徴へ、そして最後にモデルの最後の層における出力指向の信号へと変化することを明らかにする。
以上の結果から,高密度潜伏剤は言語モデル計算における機能的役割を担っていることが示唆された。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Analyzing (In)Abilities of SAEs via Formal Languages [14.71170261508271]
正規言語の合成テストベッド上でスパースオートエンコーダを訓練する。
パフォーマンスは、トレーニングパイプラインの帰納バイアスに敏感です。
我々は、因果関係がSAEトレーニングの中心的標的となる必要があると論じる。
論文 参考訳(メタデータ) (2024-10-15T16:42:13Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Interventional Causal Representation Learning [75.18055152115586]
因果表現学習は、低レベルの感覚データから高レベルの潜伏因子を抽出しようとする。
介入データは因果表現学習を促進するか?
介入データは、しばしば潜伏因子の支援の幾何学的シグネチャを持つことを示す。
論文 参考訳(メタデータ) (2022-09-24T04:59:03Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。