論文の概要: Spark Transformer: Reactivating Sparsity in FFN and Attention
- arxiv url: http://arxiv.org/abs/2506.06644v1
- Date: Sat, 07 Jun 2025 03:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.375545
- Title: Spark Transformer: Reactivating Sparsity in FFN and Attention
- Title(参考訳): Spark Transformer - FFNとアテンションにおけるスパーシティの再活性化
- Authors: Chong You, Kan Wu, Zhipeng Jia, Lin Chen, Srinadh Bhojanapalli, Jiaxian Guo, Utku Evci, Jan Wassenberg, Praneeth Netrapalli, Jeremiah J. Willcock, Suvinay Subramanian, Felix Chern, Alek Andreev, Shreya Pathak, Felix Yu, Prateek Jain, David E. Culler, Henry M. Levy, Sanjiv Kumar,
- Abstract要約: 本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
- 参考スコア(独自算出の注目度): 63.20677098823873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discovery of the lazy neuron phenomenon in trained Transformers, where the vast majority of neurons in their feed-forward networks (FFN) are inactive for each token, has spurred tremendous interests in activation sparsity for enhancing large model efficiency. While notable progress has been made in translating such sparsity to wall-time benefits, modern Transformers have moved away from the ReLU activation function crucial to this phenomenon. Existing efforts on re-introducing activation sparsity often degrade model quality, increase parameter count, complicate or slow down training. Sparse attention, the application of sparse activation to the attention mechanism, often faces similar challenges. This paper introduces the Spark Transformer, a novel architecture that achieves a high level of activation sparsity in both FFN and the attention mechanism while maintaining model quality, parameter count, and standard training procedures. Our method realizes sparsity via top-k masking for explicit control over sparsity level. Crucially, we introduce statistical top-k, a hardware-accelerator-friendly, linear-time approximate algorithm that avoids costly sorting and mitigates significant training slowdown from standard top-$k$ operators. Furthermore, Spark Transformer reallocates existing FFN parameters and attention key embeddings to form a low-cost predictor for identifying activated entries. This design not only mitigates quality loss from enforced sparsity, but also enhances wall-time benefit. Pretrained with the Gemma-2 recipe, Spark Transformer demonstrates competitive performance on standard benchmarks while exhibiting significant sparsity: only 8% of FFN neurons are activated, and each token attends to a maximum of 256 tokens. This sparsity translates to a 2.5x reduction in FLOPs, leading to decoding wall-time speedups of up to 1.79x on CPU and 1.40x on GPU.
- Abstract(参考訳): 訓練されたトランスフォーマーにおける遅延ニューロン現象の発見は、彼らのフィードフォワードネットワーク(FFN)のほとんどのニューロンがトークンごとに不活性であり、大きなモデルの効率を高めるための活性化空間性への大きな関心を喚起している。
しかし,現代のトランスフォーマーは,この現象に不可欠なReLU活性化機能から離れつつある。
アクティベーションのスペシャリティを再導入する既存の取り組みは、モデルの品質を低下させ、パラメータ数を増やし、複雑なトレーニングや遅いトレーニングを行う。
スパース・アテンション(スパース・アテンション)は、注意機構へのスパース・アクティベーションの応用であり、しばしば同様の課題に直面している。
本稿では,モデル品質,パラメータ数,標準トレーニング手順を維持しつつ,FFNとアテンション機構の両方において高いアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。
提案手法は,空間レベルを明示的に制御するためのトップkマスキングによる空間性を実現する。
ハードウェアアクセラレータに親しみやすい線形時間近似アルゴリズムである統計トポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルトポロジカルト法を導入する。
さらに、Spark Transformerは既存のFFNパラメータとアテンションキーの埋め込みを再配置し、アクティベートされたエントリを識別するための低コストな予測器を形成する。
この設計は、強制された疎水性による品質損失を軽減するだけでなく、壁面時間の利点を高める。
Gemma-2レシピで事前トレーニングされたSpark Transformerは、標準的なベンチマーク上での競合性能を示すと同時に、大きな間隔を示す。
これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
関連論文リスト
- Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - Mixture of Hidden-Dimensions Transformer [50.40325486463241]
隠れ次元の空間性について検討し、訓練されたトランスフォーマーがわずかなトークン次元しか利用していないことを観察する。
スパース条件付アクティベーションアーキテクチャであるMoHD(Mixture of Hidden Dimensions)を提案する。
50%のアクティベーションパラメータが減少し、3.7%のハイパフォーマンスを実現し、3倍のパラメータを一定のアクティベーションコストで拡張する。
論文 参考訳(メタデータ) (2024-12-07T13:15:22Z) - Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。
高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。
携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文 参考訳(メタデータ) (2024-06-10T01:21:59Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Diffuser: Efficient Transformers with Multi-hop Attention Diffusion for
Long Sequences [16.066338004414092]
textitDiffuserはシーケンシャル・ツー・シーケンス・モデリングのための新しい効率的なトランスフォーマーである。
低い計算とメモリコストを維持しながら、すべてのトークンインタラクションを1つの注意層に組み込む。
スペクトルの観点からグラフ展開特性を解析することにより、全アテンションを近似する能力を示す。
論文 参考訳(メタデータ) (2022-10-21T08:13:34Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。