論文の概要: Train Sparse Autoencoders Efficiently by Utilizing Features Correlation
- arxiv url: http://arxiv.org/abs/2505.22255v1
- Date: Wed, 28 May 2025 11:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.577384
- Title: Train Sparse Autoencoders Efficiently by Utilizing Features Correlation
- Title(参考訳): 特徴相関を利用した列車スパースオートエンコーダの効率化
- Authors: Vadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky,
- Abstract要約: 我々は Kronecker 積分解による潜在表現を分解する新しいアーキテクチャ KronSAE を提案する。
また、二項演算と演算を近似した識別可能なアクティベーション関数mANDを導入し、解釈性と性能を向上させる。
- 参考スコア(独自算出の注目度): 3.588453140011797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) have demonstrated significant promise in interpreting the hidden states of language models by decomposing them into interpretable latent directions. However, training SAEs at scale remains challenging, especially when large dictionary sizes are used. While decoders can leverage sparse-aware kernels for efficiency, encoders still require computationally intensive linear operations with large output dimensions. To address this, we propose KronSAE, a novel architecture that factorizes the latent representation via Kronecker product decomposition, drastically reducing memory and computational overhead. Furthermore, we introduce mAND, a differentiable activation function approximating the binary AND operation, which improves interpretability and performance in our factorized framework.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、言語モデルの隠れた状態を解釈可能な潜在方向へと分解することで、大きな可能性を証明している。
しかし、特に大きな辞書サイズを使用する場合、大規模にSAEを訓練することは困難である。
デコーダはスパース対応カーネルを効率よく活用できるが、エンコーダは大きな出力次元を持つ計算集約線形演算を必要とする。
そこで我々は,Kroneckerの製品分解による潜在表現を分解する新しいアーキテクチャであるKronSAEを提案し,メモリと計算オーバーヘッドを大幅に削減した。
さらに,バイナリと操作を近似した識別可能なアクティベーション関数であるmANDを導入し,因子化フレームワークの解釈性や性能を向上させる。
関連論文リスト
- Efficient and Accurate Scene Text Recognition with Cascaded-Transformers [11.638859439061164]
本稿では,効率よく正確なシーンテキスト認識システムを提案する。
本稿では,エンコーダモデルの効率向上に焦点をあてる。
実験の結果,STRシステムは最先端のベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-24T16:58:37Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
最近の研究は、ニューラルネットワーク表現の解釈可能な特徴を明らかにするためにスパースオートエンコーダ(SAE)を使用することを約束している。
しかし、SAEの単純な線形非線形符号化機構は、正確なスパース推論を行う能力を制限する。
SAEエンコーダは, 解決可能な場合であっても, 精度の高いスパース推論には本質的に不十分であることを示す。
論文 参考訳(メタデータ) (2024-11-20T08:21:53Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction [3.6640504352010885]
本稿では,スパーステンソル収縮のためのフレキシブルでモジュラーな加速器であるFLAASHを紹介する。
我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジンに分散することにより、スパーステンソル収縮を行う。
提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。
論文 参考訳(メタデータ) (2024-04-25T03:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。