Fugu-MT 論文翻訳(概要): Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

論文の概要: Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

arxiv url: http://arxiv.org/abs/2505.22255v1
Date: Wed, 28 May 2025 11:41:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.577384
Title: Train Sparse Autoencoders Efficiently by Utilizing Features Correlation
Title（参考訳）: 特徴相関を利用した列車スパースオートエンコーダの効率化
Authors: Vadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky,
Abstract要約: 我々は Kronecker 積分解による潜在表現を分解する新しいアーキテクチャ KronSAE を提案する。また、二項演算と演算を近似した識別可能なアクティベーション関数mANDを導入し、解釈性と性能を向上させる。
参考スコア（独自算出の注目度）: 3.588453140011797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Sparse Autoencoders (SAEs) have demonstrated significant promise in interpreting the hidden states of language models by decomposing them into interpretable latent directions. However, training SAEs at scale remains challenging, especially when large dictionary sizes are used. While decoders can leverage sparse-aware kernels for efficiency, encoders still require computationally intensive linear operations with large output dimensions. To address this, we propose KronSAE, a novel architecture that factorizes the latent representation via Kronecker product decomposition, drastically reducing memory and computational overhead. Furthermore, we introduce mAND, a differentiable activation function approximating the binary AND operation, which improves interpretability and performance in our factorized framework.
Abstract（参考訳）: スパースオートエンコーダ(SAE)は、言語モデルの隠れた状態を解釈可能な潜在方向へと分解することで、大きな可能性を証明している。しかし、特に大きな辞書サイズを使用する場合、大規模にSAEを訓練することは困難である。デコーダはスパース対応カーネルを効率よく活用できるが、エンコーダは大きな出力次元を持つ計算集約線形演算を必要とする。そこで我々は,Kroneckerの製品分解による潜在表現を分解する新しいアーキテクチャであるKronSAEを提案し,メモリと計算オーバーヘッドを大幅に削減した。さらに,バイナリと操作を近似した識別可能なアクティベーション関数であるmANDを導入し,因子化フレームワークの解釈性や性能を向上させる。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
Curse of High Dimensionality Issue in Transformer for Long-context Modeling [31.257769500741006]
注意計算において重要でないトークンを集約することにより冗長性を低減するために,textitDynamic Group Attention (DGA)を提案する。その結果,DGAは競争性能を維持しながら計算コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (2025-05-28T08:34:46Z)
Efficient and Accurate Scene Text Recognition with Cascaded-Transformers [11.638859439061164]
本稿では,効率よく正確なシーンテキスト認識システムを提案する。本稿では,エンコーダモデルの効率向上に焦点をあてる。実験の結果,STRシステムは最先端のベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-03-24T16:58:37Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
最近の研究は、ニューラルネットワーク表現の解釈可能な特徴を明らかにするためにスパースオートエンコーダ(SAE)を使用することを約束している。しかし、SAEの単純な線形非線形符号化機構は、正確なスパース推論を行う能力を制限する。 SAEエンコーダは, 解決可能な場合であっても, 精度の高いスパース推論には本質的に不十分であることを示す。
論文参考訳（メタデータ） (2024-11-20T08:21:53Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction [3.6640504352010885]
本稿では,スパーステンソル収縮のためのフレキシブルでモジュラーな加速器であるFLAASHを紹介する。我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジンに分散することにより、スパーステンソル収縮を行う。提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。
論文参考訳（メタデータ） (2024-04-25T03:46:53Z)
Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文参考訳（メタデータ） (2020-08-24T14:48:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。