論文の概要: BatchTopK Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2412.06410v1
- Date: Mon, 09 Dec 2024 11:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:07.561379
- Title: BatchTopK Sparse Autoencoders
- Title(参考訳): BatchTopKスパースオートエンコーダ
- Authors: Bart Bussmann, Patrick Leask, Neel Nanda,
- Abstract要約: BatchTopKは、トップkの制約をバッチレベルに緩和することで、トップK SAEを改善するトレーニング方法である。
BatchTopK SAEsはGPT-2 SmallとGemma 2 2Bの活性化を再構築する際にTopK SAEsを一貫して上回っている。
- 参考スコア(独自算出の注目度): 1.8754113193437074
- License:
- Abstract: Sparse autoencoders (SAEs) have emerged as a powerful tool for interpreting language model activations by decomposing them into sparse, interpretable features. A popular approach is the TopK SAE, that uses a fixed number of the most active latents per sample to reconstruct the model activations. We introduce BatchTopK SAEs, a training method that improves upon TopK SAEs by relaxing the top-k constraint to the batch-level, allowing for a variable number of latents to be active per sample. As a result, BatchTopK adaptively allocates more or fewer latents depending on the sample, improving reconstruction without sacrificing average sparsity. We show that BatchTopK SAEs consistently outperform TopK SAEs in reconstructing activations from GPT-2 Small and Gemma 2 2B, and achieve comparable performance to state-of-the-art JumpReLU SAEs. However, an advantage of BatchTopK is that the average number of latents can be directly specified, rather than approximately tuned through a costly hyperparameter sweep. We provide code for training and evaluating BatchTopK SAEs at https://github.com/bartbussmann/BatchTopK
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、それらをスパースで解釈可能な機能に分解することで、言語モデルのアクティベーションを解釈するための強力なツールとして登場した。
一般的なアプローチはTopK SAEであり、モデルアクティベーションを再構築するために1サンプルあたりの最もアクティブな潜伏剤の固定数を使用する。
BatchTopK SAEは,トップk制約をバッチレベルに緩和することで,TopK SAEを改善するトレーニング手法である。
その結果、BatchTopKはサンプルに応じて複数の潜伏剤を適応的に割り当て、平均寿命を犠牲にすることなく再構築を改善する。
BatchTopK SAEはGPT-2 SmallとGemma 2 2Bのアクティベーションの再構築においてTopK SAEを一貫して上回り、最先端のJumpReLU SAEに匹敵する性能を示した。
しかしながら、BatchTopKの利点は、コストのかかるハイパーパラメータスイープによって概ね調整されるのではなく、平均的なラテントの数を直接指定できることである。
BatchTopK SAEs at https://github.com/bartbussmann/BatchTopK
関連論文リスト
- Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization [13.475050661770796]
我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。
トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
論文 参考訳(メタデータ) (2024-06-17T18:33:44Z) - CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification [3.594351309950969]
CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。
提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
論文 参考訳(メタデータ) (2024-05-26T14:50:40Z) - TS-RSR: A provably efficient approach for batch bayesian optimization [4.622871908358325]
本稿では,Phompson Smpling-Regret to Sigma Ratio Direct sampleという,バッチベイズ最適化(BO)の新しい手法を提案する。
我々のサンプリング目的は、各バッチで選択されたアクションを、ポイント間の冗長性を最小化する方法で調整することができる。
提案手法は, 難解な合成および現実的なテスト機能において, 最先端の性能を達成できることを実証する。
論文 参考訳(メタデータ) (2024-03-07T18:58:26Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - BatchGFN: Generative Flow Networks for Batch Active Learning [80.73649229919454]
BatchGFNは、生成フローネットワークを使用してバッチ報酬に比例したデータポイントのセットをサンプリングする、プールベースのアクティブラーニングのための新しいアプローチである。
提案手法は,おもちゃの回帰問題において,1点当たり1回の前方通過で推定時間に近距離最適効用バッチをサンプリングすることを可能にした。
論文 参考訳(メタデータ) (2023-06-26T20:41:36Z) - Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression [65.8785736964253]
本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。
この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。
本稿では,回帰オラクルに基づくCBwLC(CBwK)のアルゴリズムについて述べる。このアルゴリズムは単純で,計算効率が良く,統計的に最適である。
論文 参考訳(メタデータ) (2022-11-14T16:08:44Z) - Stochastic Batch Acquisition: A Simple Baseline for Deep Active Learning [48.19646855997791]
本稿では,よく知られた単一点獲得関数を適用して,バッチアクティブ学習を実現するための簡単な戦略について検討する。
この戦略は、BatchBALDやBADGEのような、計算集約的なバッチ取得機能と同様に、桁違いの計算量を使用することができる。
機械学習実践者に実践的な選択肢を提供することに加えて、幅広い実験環境で提案手法が驚くほど成功したことは、この分野にとって難しい問題となっている。
論文 参考訳(メタデータ) (2021-06-22T21:07:50Z) - PowerEvaluationBALD: Efficient Evaluation-Oriented Deep (Bayesian)
Active Learning with Stochastic Acquisition Functions [2.0305676256390934]
深層アクティブ学習のための新しい獲得関数である batchevaluationbald を開発した。
また、評価情報ゲインと呼ばれる非ベイジアン設定の変種も開発しています。
計算要求を減らし,これらの手法をより大きなバッチサイズにスケールできるようにするため,テンパリングされた獲得スコアの重要サンプリングを利用する獲得関数を導入する。
論文 参考訳(メタデータ) (2021-01-10T13:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。