論文の概要: Dense SAE Latents Are Features, Not Bugs
- arxiv url: http://arxiv.org/abs/2506.15679v2
- Date: Wed, 05 Nov 2025 16:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:39.598571
- Title: Dense SAE Latents Are Features, Not Bugs
- Title(参考訳): SAE潜水艇はバグではなく特徴
- Authors: Xiaoqing Sun, Alessandro Stolfo, Joshua Engels, Ben Wu, Senthooran Rajamanoharan, Mrinmaya Sachan, Max Tegmark,
- Abstract要約: 言語モデル計算において,高密度潜伏剤が機能的役割を担っていることを示す。
位置追跡,コンテキストバインディング,エントロピー制御,文字固有出力信号,パート・オブ・音声,主成分再構成に関連するクラスを同定する。
- 参考スコア(独自算出の注目度): 86.50389855919292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are \emph{dense}), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs -- suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、スパース性制約を強制することにより、言語モデルから解釈可能な特徴を抽出するように設計されている。
理想的には、SAEのトレーニングは、スパースかつセマンティックに意味のある潜伏者を生み出す。
しかし、多くのSAE潜伏剤は頻繁に活性化し(すなわち、emph{dense} である)、訓練手順の望ましくない人工物かもしれないという懸念を提起する。
本研究では,高密度ラテントの幾何学,関数,起源を体系的に研究し,それらが永続性だけでなく,しばしば意味のあるモデル表現を反映していることを示す。
まず、高密度潜伏剤は残留流の特定の方向を再構成する反足動物対を形成する傾向にあり、その部分空間を非難することで、再訓練されたSAEにおける新しい高密度特徴の出現を抑制することが示され、高密度特徴が残留空間の本質的な性質であることを示唆している。
次に、位置追跡、文脈結合、エントロピー制御、文字固有の出力信号、音声のパート・オブ・音声、および主成分再構成に関連するクラスを特定する。
最後に、これらの機能が層を横断してどのように進化するかを分析し、初期層の構造的特徴から中層のセマンティックな特徴へ、そして最後にモデルの最後の層における出力指向の信号へと変化することを明らかにする。
以上の結果から,高密度潜伏剤は言語モデル計算における機能的役割を担っていることが示唆された。
関連論文リスト
- Emergent Structured Representations Support Flexible In-Context Inference in Large Language Models [77.98801218316505]
大型言語モデル(LLM)は、人間のような推論を示唆する創発的な行動を示す。
テキスト内概念推論におけるLLMの内部処理について検討する。
論文 参考訳(メタデータ) (2026-02-08T03:14:39Z) - From Observations to States: Latent Time Series Forecasting [65.98504021691666]
本稿では,TSFを観測回帰から潜時予測に移行する新しいパラダイムであるLatent Time Series Forecasting(LatentTSF)を提案する。
具体的には、LatentTSFはAutoEncoderを使用して、各段階での観測結果を高次元の潜在状態空間に投影する。
提案する潜伏目標は,予測潜伏状態と地道状態と観測値との相互情報を暗黙的に最大化する。
論文 参考訳(メタデータ) (2026-01-30T20:39:44Z) - Proto-LeakNet: Towards Signal-Leak Aware Attribution in Synthetic Human Face Imagery [6.261566338754577]
Proto-LeakNetは、シグナルリーク対応で解釈可能な属性フレームワークである。
Proto-LeakNetは後処理で頑健な潜在幾何学を学習していることを示す。
その結果、潜時空間における信号リークバイアスのモデル化により、信頼性と解釈可能なAI画像とディープフェイク法医学が実現された。
論文 参考訳(メタデータ) (2025-11-06T10:51:11Z) - ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - From Flat to Hierarchical: Extracting Sparse Representations with Matching Pursuit [16.996218963146788]
我々は,MP-SAEがエンコーダを一連の残差誘導ステップにアンロールすることで,階層的かつ非線形にアクセス可能な特徴を捉えることができることを示す。
また、MP-SAEのシーケンシャルエンコーダ原理は、推論時に適応空間の利点を付加することを示した。
論文 参考訳(メタデータ) (2025-06-03T17:24:55Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Analyzing (In)Abilities of SAEs via Formal Languages [14.71170261508271]
正規言語の合成テストベッド上でスパースオートエンコーダを訓練する。
パフォーマンスは、トレーニングパイプラインの帰納バイアスに敏感です。
我々は、因果関係がSAEトレーニングの中心的標的となる必要があると論じる。
論文 参考訳(メタデータ) (2024-10-15T16:42:13Z) - A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders [0.0]
階層的特徴のスパース分解と分割は堅牢ではないことを示す。
具体的には、モノセマンティックな特徴が本来あるべき場所に放たれるのに失敗し、代わりに子供の特徴に"吸収"されることを示す。
論文 参考訳(メタデータ) (2024-09-22T16:11:02Z) - The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。
驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文 参考訳(メタデータ) (2024-06-27T17:57:03Z) - Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning [61.902254546858465]
Contrastive Language-Image Pre-Trainingに基づく手法は、数発の適応タスクで有望な性能を示した。
本稿では,タスク固有のセマンティクスに焦点を合わせるために,トレーニングプロセス中にアテンションプーリング層のパラメータを微調整することを提案する。
論文 参考訳(メタデータ) (2023-11-08T05:18:57Z) - Interventional Causal Representation Learning [75.18055152115586]
因果表現学習は、低レベルの感覚データから高レベルの潜伏因子を抽出しようとする。
介入データは因果表現学習を促進するか?
介入データは、しばしば潜伏因子の支援の幾何学的シグネチャを持つことを示す。
論文 参考訳(メタデータ) (2022-09-24T04:59:03Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z) - Structure-Aware Feature Generation for Zero-Shot Learning [108.76968151682621]
潜在空間と生成ネットワークの両方を学習する際の位相構造を考慮し,SA-GANと呼ばれる新しい構造認識特徴生成手法を提案する。
本手法は,未確認クラスの一般化能力を大幅に向上させ,分類性能を向上させる。
論文 参考訳(メタデータ) (2021-08-16T11:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。