論文の概要: Transformer Based Linear Attention with Optimized GPU Kernel Implementation
- arxiv url: http://arxiv.org/abs/2510.21956v1
- Date: Fri, 24 Oct 2025 18:32:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.479394
- Title: Transformer Based Linear Attention with Optimized GPU Kernel Implementation
- Title(参考訳): 最適化GPUカーネル実装によるトランスフォーマーに基づく線形アテンション
- Authors: Armin Gerami, Ramani Duraiswami,
- Abstract要約: 線形注意(LA)機構はO(ND2)$の線形時間複雑性を提供し、通常の注意に匹敵する精度を示している。
本稿では,高度に最適化された実装とともに,LAの前方・後方通過のための新しい手法を提案する。
我々は、14億のパラメータ言語モデルをトレーニングすることにより、これらの改善を単層とエンドツーエンドの両方の設定で検証する。
- 参考スコア(独自算出の注目度): 10.235738752130803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The original softmax-based attention mechanism (regular attention) in the extremely successful Transformer architecture computes attention between $N$ tokens, each embedded in a $D$-dimensional head, with a time complexity of $O(N^2D)$. Given the success of Transformers, improving their runtime during both training and inference is a popular research area. One such approach is the introduction of the linear attention (LA) mechanisms, which offers a linear time complexity of $O(ND^2)$ and have demonstrated comparable accuracy to regular attention. However, LA in practice lags behind its theoretical efficiency. We propose a novel method for LA's forward and backward passes, along with a highly-optimized CUDA implementation. Our approach outperforms the state-of-the-art by 3.3 times in speed and reduces memory consumption by 3.6 times. We validate these improvements in both single-layer and end-to-end settings by training a 1.4 billion parameter language model, which demonstrates similar expressivity to regular attention on major reasoning benchmarks.
- Abstract(参考訳): 非常に成功したTransformerアーキテクチャの元々のソフトマックスベースのアテンション機構(正規のアテンション)は、$N$トークン間でのアテンションを計算し、それぞれが$D$次元のヘッドに埋め込まれ、時間の複雑さは$O(N^2D)$である。
Transformerの成功を考えると、トレーニングと推論の両方におけるランタイムの改善は人気のある研究分野である。
そのようなアプローチの1つは線形注意(LA)機構の導入であり、これは線形時間複雑性が$O(ND^2)$であり、通常の注意に匹敵する精度を示している。
しかし、LAは理論上の効率性に遅れを取っている。
我々は,高度に最適化されたCUDA実装とともに,LAの前方・後方通過のための新しい手法を提案する。
我々の手法は最先端の3.3倍の速度で性能を向上し、メモリ消費を3.6倍削減する。
我々は、14億のパラメータ言語モデルをトレーニングすることで、これらの改善を単層とエンドツーエンドの両方で検証し、主要な推論ベンチマークに通常の注意を払っているのと同様の表現性を示す。
関連論文リスト
- Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [34.548270527357126]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - Jorge: Approximate Preconditioning for GPU-efficient Second-order
Optimization [2.081667369602538]
両世界のベストを約束する二階法であるJorgeを紹介します -- 2階法の迅速な収束効果と、一階法に典型的な高い計算効率です。
プリコンディショナーの近似を用いて,計算行列の逆計算の計算ボトルネックを完全に排除することで,計算行列の計算ボトルネックに対処する。
論文 参考訳(メタデータ) (2023-10-18T19:58:54Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention [5.495006023171481]
トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。
本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
論文 参考訳(メタデータ) (2021-10-18T13:42:43Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。