論文の概要: SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2605.06610v2
- Date: Fri, 08 May 2026 10:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.230063
- Title: SoftSAE: Dynamic Top-K Selection for Adaptive Sparse Autoencoders
- Title(参考訳): SoftSAE: 適応スパースオートエンコーダのための動的トップK選択
- Authors: Jakub Stępień, Marcin Mazur, Jacek Tabor, Przemysław Spurek,
- Abstract要約: 動的トップ-K選択機構を備えたスパースオートエンコーダであるSoftSAEを提案する。
本手法は,入力依存空間レベルkを学習するために,微分可能なソフトトップK演算子を用いる。
実験結果から,SoftSAEは有意義な特徴を見出すだけでなく,各概念に対して適切な特徴数を選択することが確認された。
- 参考スコア(独自算出の注目度): 11.728621223411475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have become an important tool in mechanistic interpretability, helping to analyze internal representations in both Large Language Models (LLMs) and Vision Transformers (ViTs). By decomposing polysemantic activations into sparse sets of monosemantic features, SAEs aim to translate neural network computations into human-understandable concepts. However, common architectures such as TopK SAEs rely on a fixed sparsity level. They enforce the same number of active features (K) across all inputs, ignoring the varying complexity of real-world data. Natural data often lies on manifolds with varying local intrinsic dimensionality, meaning the number of relevant factors can change significantly across samples. This suggests that a fixed sparsity level is not optimal. Simple inputs may require only a few features, while more complex ones need more expressive representations. Using a constant K can therefore introduce noise in simple cases or miss important structure in more complex ones. To address this issue, we propose SoftSAE, a sparse autoencoder with a Dynamic Top-K selection mechanism. Our method uses a differentiable Soft Top-K operator to learn an input-dependent sparsity level k. This allows the model to adjust the number of active features based on the complexity of each input. As a result, the representation better matches the structure of the data, and the explanation length reflects the amount of information in the input. Experimental results confirm that SoftSAE not only finds meaningful features, but also selects the right number of features for each concept. The source code is available at: https://github.com/St0pien/SoftSAE.
- Abstract(参考訳): Sparse Autoencoders (SAE) は機械的解釈可能性において重要なツールとなり、Large Language Models (LLM) と Vision Transformers (ViT) の両方の内部表現の分析に役立っている。
ポリセマンティックなアクティベーションをスパースなモノセマンティックな特徴に分解することで、SAEはニューラルネットワークの計算を人間の理解可能な概念に変換することを目指している。
しかし、TopK SAEのような一般的なアーキテクチャは、一定間隔レベルに依存している。
実世界のデータの複雑さを無視して、すべての入力に対して同じ数のアクティブ機能(K)を強制する。
自然データは、しばしば局所固有次元の異なる多様体の上にあり、つまり、関連する因子の数はサンプル全体で著しく変化する。
これは固定間隔レベルが最適でないことを示唆している。
単純な入力はいくつかの機能しか必要としないが、より複雑な入力はより表現力のある表現を必要とする。
したがって、定数 K を用いると、単純な場合においてノイズを導入するか、より複雑な場合において重要な構造を見逃すことができる。
この問題に対処するために,動的Top-K選択機構を備えたスパースオートエンコーダであるSoftSAEを提案する。
本手法は,入力依存空間レベルkを学習するために,微分可能なソフトトップK演算子を用いる。
これにより、各入力の複雑さに基づいて、モデルがアクティブな特徴の数を調整できる。
その結果、表現はデータ構造とよく一致し、説明長は入力の情報量を反映する。
実験結果から,SoftSAEは有意義な特徴を見出すだけでなく,各概念に対して適切な特徴数を選択することが確認された。
ソースコードは、https://github.com/St0pien/SoftSAE.comで入手できる。
関連論文リスト
- Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - AdaptiveK Sparse Autoencoders: Dynamic Sparsity Allocation for Interpretable LLM Representations [28.447024168930984]
本稿では,各入力の意味的複雑さに基づいて空間レベルを動的に調整する新しいフレームワークであるAdaptiveK SAE(Adaptive Top K Sparse Autoencoders)を提案する。
本研究では, この複雑化による適応が, 再構成忠実度, 分散, コサイン類似度, 解釈可能性指標において, 固定スパーシティアプローチを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2025-08-24T12:00:41Z) - Kolmogorov GAM Networks are all you need! [0.6906005491572398]
Kolmogorov GAMネットワークは、トレーニングと推論のための効率的なアーキテクチャであることが示されている。
それらは、関心の関数に依存しない埋め込みを持つ加法モデルである。
論文 参考訳(メタデータ) (2025-01-01T02:46:00Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Identifiable Variational Autoencoders via Sparse Decoding [37.30831737046145]
高次元データに基づく教師なし表現学習のための深層生成モデルであるSparse VAEを開発した。
まず、Sparse VAEが識別可能であることを示し、モデルから引き出されたデータを考えると、一意に最適な要素の集合が存在する。
シミュレーションデータと実データの両方を用いて,Sparse VAEを実証研究する。
論文 参考訳(メタデータ) (2021-10-20T22:11:33Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - A New Modal Autoencoder for Functionally Independent Feature Extraction [6.690183908967779]
新しいモーダルオートエンコーダ (MAE) は、読み出し重み行列の列をオトゴゴナライズすることによって提案される。
結果は、MNIST変異とUSPS分類ベンチマークスイートで検証された。
新しいMAEは、オートエンコーダのための非常にシンプルなトレーニング原則を導入し、ディープニューラルネットワークの事前トレーニングを約束できる。
論文 参考訳(メタデータ) (2020-06-25T13:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。