論文の概要: Transformer Based Linear Attention with Optimized GPU Kernel Implementation
- arxiv url: http://arxiv.org/abs/2510.21956v1
- Date: Fri, 24 Oct 2025 18:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.479394
- Title: Transformer Based Linear Attention with Optimized GPU Kernel Implementation
- Title(参考訳): 最適化GPUカーネル実装によるトランスフォーマーに基づく線形アテンション
- Authors: Armin Gerami, Ramani Duraiswami,
- Abstract要約: 線形注意(LA)機構はO(ND2)$の線形時間複雑性を提供し、通常の注意に匹敵する精度を示している。
本稿では,高度に最適化された実装とともに,LAの前方・後方通過のための新しい手法を提案する。
我々は、14億のパラメータ言語モデルをトレーニングすることにより、これらの改善を単層とエンドツーエンドの両方の設定で検証する。
- 参考スコア(独自算出の注目度): 10.235738752130803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The original softmax-based attention mechanism (regular attention) in the extremely successful Transformer architecture computes attention between $N$ tokens, each embedded in a $D$-dimensional head, with a time complexity of $O(N^2D)$. Given the success of Transformers, improving their runtime during both training and inference is a popular research area. One such approach is the introduction of the linear attention (LA) mechanisms, which offers a linear time complexity of $O(ND^2)$ and have demonstrated comparable accuracy to regular attention. However, LA in practice lags behind its theoretical efficiency. We propose a novel method for LA's forward and backward passes, along with a highly-optimized CUDA implementation. Our approach outperforms the state-of-the-art by 3.3 times in speed and reduces memory consumption by 3.6 times. We validate these improvements in both single-layer and end-to-end settings by training a 1.4 billion parameter language model, which demonstrates similar expressivity to regular attention on major reasoning benchmarks.
- Abstract(参考訳): 非常に成功したTransformerアーキテクチャの元々のソフトマックスベースのアテンション機構(正規のアテンション)は、$N$トークン間でのアテンションを計算し、それぞれが$D$次元のヘッドに埋め込まれ、時間の複雑さは$O(N^2D)$である。
Transformerの成功を考えると、トレーニングと推論の両方におけるランタイムの改善は人気のある研究分野である。
そのようなアプローチの1つは線形注意(LA)機構の導入であり、これは線形時間複雑性が$O(ND^2)$であり、通常の注意に匹敵する精度を示している。
しかし、LAは理論上の効率性に遅れを取っている。
我々は,高度に最適化されたCUDA実装とともに,LAの前方・後方通過のための新しい手法を提案する。
我々の手法は最先端の3.3倍の速度で性能を向上し、メモリ消費を3.6倍削減する。
我々は、14億のパラメータ言語モデルをトレーニングすることで、これらの改善を単層とエンドツーエンドの両方で検証し、主要な推論ベンチマークに通常の注意を払っているのと同様の表現性を示す。
関連論文リスト
- Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [34.548270527357126]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。