論文の概要: Efficient Dictionary Learning with Switch Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2410.08201v1
- Date: Thu, 10 Oct 2024 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:46:03.683863
- Title: Efficient Dictionary Learning with Switch Sparse Autoencoders
- Title(参考訳): スイッチスパースオートエンコーダを用いた効率的な辞書学習
- Authors: Anish Mudide, Joshua Engels, Eric J. Michaud, Max Tegmark, Christian Schroeder de Witt,
- Abstract要約: 本稿では,SAEのトレーニングコスト削減を目的とした新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを紹介する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな「専門家」SAE間での経路活性化ベクトルを切り替える。
この結果,Switch SAEは,所定のトレーニング計算予算に対して,再構成と疎性フロンティアの大幅な改善をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 8.577217344304072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) are a recent technique for decomposing neural network activations into human-interpretable features. However, in order for SAEs to identify all features represented in frontier models, it will be necessary to scale them up to very high width, posing a computational challenge. In this work, we introduce Switch Sparse Autoencoders, a novel SAE architecture aimed at reducing the compute cost of training SAEs. Inspired by sparse mixture of experts models, Switch SAEs route activation vectors between smaller "expert" SAEs, enabling SAEs to efficiently scale to many more features. We present experiments comparing Switch SAEs with other SAE architectures, and find that Switch SAEs deliver a substantial Pareto improvement in the reconstruction vs. sparsity frontier for a given fixed training compute budget. We also study the geometry of features across experts, analyze features duplicated across experts, and verify that Switch SAE features are as interpretable as features found by other SAE architectures.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを人間の解釈可能な特徴に分解する最近の技術である。
しかし、SAEがフロンティアモデルで表される全ての特徴を特定するためには、それらを非常に高い幅まで拡張する必要がある。
本研究では,新しいSAEアーキテクチャであるSwitch Sparse Autoencodersを導入する。
専門家モデルのまばらな混合にインスパイアされたSAEは、より小さな"専門家"SAE間で活性化ベクトルをルーティングし、SAEを多くの機能に効率的にスケールできるようにする。
本稿は,Switch SAEと他のSAEアーキテクチャを比較した実験を行い,Switch SAEが所定の固定トレーニング計算予算に対して,復元と疎性フロンティアにおいて実質的なParetoの改善を提供することを確認した。
また,専門家間での特徴の幾何について検討し,専門家間で重複する特徴を分析し,Switch SAE機能が他のSAEアーキテクチャで見られる機能と同じくらい解釈可能であることを検証した。
関連論文リスト
- Enhancing Neural Network Interpretability with Feature-Aligned Sparse Autoencoders [8.003244901104111]
類似した特徴を学習するために、並列訓練されたSAEを奨励し、特徴学習を改善するための正規化手法を提案する。
textscMFRは、GPT-2 Smallで最大21.21%、EEGデータで6.67%のSAEの再構築損失を改善することができる。
論文 参考訳(メタデータ) (2024-11-02T11:42:23Z) - Llama Scope: Extracting Millions of Features from Llama-3.1-8B with Sparse Autoencoders [115.34050914216665]
スパースオートエンコーダ(SAE)は、言語モデルからスパース表現を抽出する強力な教師なし手法として登場した。
我々は、Llama-3.1-8B-Baseモデルの各層とサブ層で訓練された256個のSAEスイートを紹介し、32Kと128Kの特徴を持つ。
基礎モデルに基づいて訓練されたSAEのより長い文脈と微調整モデルへの一般化性を評価する。
論文 参考訳(メタデータ) (2024-10-27T17:33:49Z) - Interpretability as Compression: Reconsidering SAE Explanations of Neural Activations with MDL-SAEs [0.0]
本稿では,SAEを損失圧縮アルゴリズムとして解釈するための情報理論フレームワークを提案する。
スパーシリティではなくMDLを使用することは、ポーシリティを過度に最大化する潜在的な落とし穴を避けることができると我々は主張する。
論文 参考訳(メタデータ) (2024-10-15T01:38:03Z) - Evaluating Open-Source Sparse Autoencoders on Disentangling Factual Knowledge in GPT-2 Small [6.306964287762374]
我々は、GPT-2小の隠れ表現を訓練したSAEが、その都市がどの国にあり、どの大陸にあるかを知るための一連の特徴を持っているかどうかを評価する。
以上の結果から,SAEはニューロンベースラインに到達するのに苦慮しており,DASスカイラインに近づかないことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-05T18:00:37Z) - Identifying Functionally Important Features with End-to-End Sparse Dictionary Learning [0.9374652839580183]
ニューラルネットワークによって学習された特徴を特定することは、機械的解釈可能性における中核的な課題である。
本稿では,SAEの学習方法であるエンドツーエンドのスパース辞書学習を提案する。
我々は,e2e SAE特徴と標準SAE特徴との幾何学的および定性的差異について検討する。
論文 参考訳(メタデータ) (2024-05-17T17:03:46Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - An Overview of Advances in Signal Processing Techniques for Classical
and Quantum Wideband Synthetic Apertures [67.73886953504947]
合成開口(SA)システムは、単一のセンサーのみの物理的次元から本質的に可能なよりも大きな角分解能を持つ大きな開口を生成する。
本稿では,このような空間的およびスペクトル的広帯域SAシステムにおける信号処理の動向について概観する。
特に,広帯域SAレーダ,チャネル音響,ソナー,ラジオメトリー,光学応用の理論的枠組みと実践的基盤について述べる。
論文 参考訳(メタデータ) (2022-05-11T16:19:04Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Taming Sparsely Activated Transformer with Stochastic Experts [76.0711573018493]
わずかに活性化されたモデル(SAM)は、計算コストを大幅に増加させることなく、非常に大量のパラメータを持つように容易にスケールすることができる。
本稿では,新しいエキスパートベースモデルTHOR(Transformer witH StOchastic ExpeRts)を提案する。
Switch Transformerのような古典的なエキスパートベースのモデルとは異なり、THORの専門家はトレーニングと推論の間、各入力に対してランダムにアクティベートされる。
論文 参考訳(メタデータ) (2021-10-08T17:15:47Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。