論文の概要: Analysis of Variational Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2509.22994v2
- Date: Wed, 01 Oct 2025 20:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.847804
- Title: Analysis of Variational Sparse Autoencoders
- Title(参考訳): 変分スパースオートエンコーダの解析
- Authors: Zachary Baker, Yuxiao Li,
- Abstract要約: SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ(vSAE)を導入し,決定論的ReLUゲーティングを学習したガウス後部からのサンプリングに置き換える。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
- 参考スコア(独自算出の注目度): 1.675385127117872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have emerged as a promising approach for interpreting neural network representations by learning sparse, human-interpretable features from dense activations. We investigate whether incorporating variational methods into SAE architectures can improve feature organization and interpretability. We introduce the Variational Sparse Autoencoder (vSAE), which replaces deterministic ReLU gating with stochastic sampling from learned Gaussian posteriors and incorporates KL divergence regularization toward a standard normal prior. Our hypothesis is that this probabilistic sampling creates dispersive pressure, causing features to organize more coherently in the latent space while avoiding overlap. We evaluate a TopK vSAE against a standard TopK SAE on Pythia-70M transformer residual stream activations using comprehensive benchmarks including SAE Bench, individual feature interpretability analysis, and global latent space visualization through t-SNE. The vSAE underperforms standard SAE across core evaluation metrics, though excels at feature independence and ablation metrics. The KL divergence term creates excessive regularization pressure that substantially reduces the fraction of living features, leading to observed performance degradation. While vSAE features demonstrate improved robustness, they exhibit many more dead features than baseline. Our findings suggest that naive application of variational methods to SAEs does not improve feature organization or interpretability.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、高密度アクティベーションからスパースで人間の解釈可能な特徴を学習することで、ニューラルネットワーク表現を解釈するための有望なアプローチとして登場した。
SAEアーキテクチャに変分手法を組み込むことで,特徴構造や解釈可能性が改善されるかどうかを検討する。
本稿では,変分スパースオートエンコーダ (vSAE) を導入し, 決定論的ReLUゲーティングを学習したガウス後部からの確率的サンプリングに置き換え, KL の分数正規化を標準正規化に組み込む。
我々の仮説では、この確率的サンプリングは分散的な圧力を発生させ、重なりを避けながら、潜在空間においてより密集的に組織化される。
SAE Bench, 個々の特徴解釈可能性解析, および t-SNE によるグローバル潜在空間可視化を含む総合的なベンチマークを用いて, Pythia-70M トランスフォーマーの残ストリームアクティベーションの標準TopK SAEに対するTopK vSAEの評価を行った。
vSAEは、機能独立性とアブレーション指標に優れるが、コア評価指標全体で標準SAEを過小評価する。
KLの発散項は過剰な正規化圧力を発生させ、生活特性を著しく減少させ、性能劣化を観測する。
vSAE機能は堅牢性の向上を示しているが、ベースラインよりも多くの致命的な機能を示している。
以上の結果から,SAEに対する変分法の適用は,機能的構造や解釈可能性の向上には至らないことが示唆された。
関連論文リスト
- ProtSAE: Disentangling and Interpreting Protein Language Models via Semantically-Guided Sparse Autoencoders [30.219733023958188]
Sparse Autoencoder (SAE) は、大規模言語モデルの機械的解釈可能性のための強力なツールとして登場した。
ProtSAEと呼ばれる意味誘導型SAEを提案する。
ProtSAEは,従来の方法と比較して,生物学的に関連性があり,隠れた特徴を解釈できることがわかった。
論文 参考訳(メタデータ) (2025-08-26T11:20:31Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Probabilistic Variational Contrastive Learning [2.512491726995032]
我々は,エビデンスローバウンド(ELBO)を最大化するデコーダフリーフレームワークを提案する。
約$q_theta(z|x)$を投影正規分布としてモデル化し、確率的埋め込みのサンプリングを可能にする。
論文 参考訳(メタデータ) (2025-06-11T20:26:07Z) - Ensembling Sparse Autoencoders [10.81463830315253]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの活性化を人間の解釈可能な特徴に分解するために用いられる。
我々は,複数のSAEを包括的袋詰めとブースティングによりアンサンブルすることを提案する。
実験の結果,SAEのアンサンブルにより,言語モデルの活性化,特徴の多様性,SAEの安定性が向上することが示された。
論文 参考訳(メタデータ) (2025-05-21T23:31:21Z) - Do Sparse Autoencoders Generalize? A Case Study of Answerability [32.356991861926105]
Gemma 2 SAEに対する多種多様な自己構築型回答可能性データセットを対象としたSAE特徴一般化の評価を行った。
分析の結果,残差ストリームプローブは領域内のSAE特性より優れていることがわかったが,一般化性能は著しく異なる。
論文 参考訳(メタデータ) (2025-02-27T10:45:25Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは、ポイントクラウドマスマスキングオートエンコーダのグローバルな特徴表現を強化する。
本研究では,ネットワークが識別的表現を保ちながら,よりリッチな変換キューをキャプチャできる新たな損失を提案する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization [52.44068740462729]
我々は、VICRegの目的に関する情報理論的な視点を示す。
我々は、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにした。
既存のSSL技術よりも優れた情報理論の原理から派生したSSL手法のファミリーを紹介する。
論文 参考訳(メタデータ) (2023-03-01T16:36:25Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。