論文の概要: Distribution-Aware Feature Selection for SAEs
- arxiv url: http://arxiv.org/abs/2508.21324v1
- Date: Fri, 29 Aug 2025 04:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.926733
- Title: Distribution-Aware Feature Selection for SAEs
- Title(参考訳): SAEの分布を考慮した特徴選択
- Authors: Narmeen Oozeer, Nirmalendu Prakash, Michael Lan, Alice Rigg, Amirali Abdullah,
- Abstract要約: TopK SAEはKが最も活発な潜伏者から各トークンを再構築する。
BatchTopKはこの制限に対処し、トークンのバッチ間でトップアクティベーションを選択する。
これは平均的な再構築を改善するが、"アクティベーション・宝くじ"のリスクを負う
- 参考スコア(独自算出の注目度): 1.2396474483677118
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sparse autoencoders (SAEs) decompose neural activations into interpretable features. A widely adopted variant, the TopK SAE, reconstructs each token from its K most active latents. However, this approach is inefficient, as some tokens carry more information than others. BatchTopK addresses this limitation by selecting top activations across a batch of tokens. This improves average reconstruction but risks an "activation lottery," where rare high-magnitude features crowd out more informative but lower-magnitude ones. To address this issue, we introduce Sampled-SAE: we score the columns (representing features) of the batch activation matrix (via $L_2$ norm or entropy), forming a candidate pool of size $Kl$, and then apply Top-$K$ to select tokens across the batch from the restricted pool of features. Varying $l$ traces a spectrum between batch-level and token-specific selection. At $l=1$, tokens draw only from $K$ globally influential features, while larger $l$ expands the pool toward standard BatchTopK and more token-specific features across the batch. Small $l$ thus enforces global consistency; large $l$ favors fine-grained reconstruction. On Pythia-160M, no single value optimizes $l$ across all metrics: the best choice depends on the trade-off between shared structure, reconstruction fidelity, and downstream performance. Sampled-SAE thus reframes BatchTopK as a tunable, distribution-aware family.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は神経の活性化を解釈可能な特徴に分解する。
広く採用されている変種であるTopK SAEは、Kが最も活発な潜伏者から各トークンを再構築する。
しかし、トークンが他のトークンよりも多くの情報を運ぶため、このアプローチは非効率である。
BatchTopKはこの制限に対処し、トークンのバッチ間でトップアクティベーションを選択する。
これは平均的な再建を改善するが、「活性化宝くじ」のリスクを負う。
この問題に対処するために、Sampred-SAEを紹介します: バッチアクティベーションマトリックスの列(特徴を表現)をスコア($L_2$ norm または entropy)し、サイズが$Kl$の候補プールを形成します。
Varying $l$は、バッチレベルとトークン固有の選択のスペクトルをトレースする。
$l=1$のトークンは、全世界的な影響力のある機能からのみ、$l$は標準のBatchTopKや、よりトークン固有の機能へと拡張される。
小さい$l$はグローバルな一貫性を強制し、大きな$l$はきめ細かい再構築を好む。
Pythia-160Mでは、すべてのメトリクスに対して$l$を最適化する単一の値はない。
これによりSampred-SAEは、BatchTopKを調整可能で配布対応のファミリとして再設定する。
関連論文リスト
- Foundations of Top-$k$ Decoding For Language Models [19.73575905188064]
我々は、トップ$kの復号化を説明・一般化する理論的枠組みを開発する。
大規模な分岐に対して効率的に最適化する方法を示す。
論文 参考訳(メタデータ) (2025-05-25T23:46:34Z) - HashAttention: Semantic Sparsity for Faster Inference [95.31739930718116]
本稿では,HashAttention,framing pivotal token Identificationを推薦問題として紹介する。
トークン1個あたり32ビットの補助メモリしか必要とせず、最小品質の損失を最小限に抑えられるため、最大16タイムで使用されるトークンを削減できる。
A100 GPUでは、HashAttentionを組み込むことで、GPT-FASTで4.3times$、FlashDecodeで2.54times$、GPT-FASTで最大3.12times$高スループットを実現している。
論文 参考訳(メタデータ) (2024-12-19T02:34:15Z) - BatchTopK Sparse Autoencoders [1.8754113193437074]
BatchTopKは、トップkの制約をバッチレベルに緩和することで、トップK SAEを改善するトレーニング方法である。
BatchTopK SAEsはGPT-2 SmallとGemma 2 2Bの活性化を再構築する際にTopK SAEsを一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-09T11:39:00Z) - Adaptive Sparse Allocation with Mutual Choice & Feature Choice Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、ニューラルネットワークから特徴を抽出するための有望なアプローチである。
我々は2つの新しいSAE変種であるFeature Choice SAEsとMutual Choice SAEsを提案する。
以上の結果より,SAEは致命的特徴が少なくなるとともに,等価な空間レベルでの再建損失が向上した。
論文 参考訳(メタデータ) (2024-11-04T14:36:24Z) - Provably Efficient High-Dimensional Bandit Learning with Batched
Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。
具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。
我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文 参考訳(メタデータ) (2023-11-22T06:06:54Z) - Tokenization and the Noiseless Channel [71.25796813073399]
優れたトークン化器は、ある入力がモデルに伝達される手段であるチャネルの使用率を高める。
機械翻訳では、複数のトークン化器において、$alpha = 2.5$のR'enyiエントロピーがtextscBleu: $0.78$と非常に強い相関を持つことがわかった。
論文 参考訳(メタデータ) (2023-06-29T10:32:09Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。