論文の概要: Flexible Operator Fusion for Fast Sparse Transformer with Diverse Masking on GPU
- arxiv url: http://arxiv.org/abs/2506.06095v1
- Date: Fri, 06 Jun 2025 13:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.500413
- Title: Flexible Operator Fusion for Fast Sparse Transformer with Diverse Masking on GPU
- Title(参考訳): GPUにおける多次元マスキングを用いた高速スパース変圧器のフレキシブル演算子融合
- Authors: Wenhao Dai, Haodong Deng, Mengfei Rong, Xinyu Yang, Hongyu Liu, Fangxin Liu, Hailong Yang, Weifeng Liu, Qingxiao Sun,
- Abstract要約: フレキシブルマスキングとGPU上の演算子融合によるスパーストランスフォーマーの最適化を組み込んだフレームワークであるSTOFを提案する。
STOFは,MHA計算で1.7倍,エンドツーエンド推論で1.5倍の高速化を実現する。
- 参考スコア(独自算出の注目度): 18.470239387359094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are popular around the world due to their powerful understanding capabilities. As the core component of LLMs, accelerating Transformer through parallelization has gradually become a hot research topic. Mask layers introduce sparsity into Transformer to reduce calculations. However, previous works rarely focus on the performance optimization of sparse Transformer. Moreover, rule-based mechanisms ignore the fusion opportunities of mixed-type operators and fail to adapt to various sequence lengths. To address the above problems, we propose STOF, a framework that incorporates optimizations for Sparse Transformer via flexible masking and operator fusion on GPU. We firstly unify the storage format and kernel implementation for the multi-head attention. Then, we map fusion schemes to compilation templates and determine the optimal parameter setting through a two-stage search engine. The experimental results show that compared to the state-of-the-art work, STOF achieves maximum speedups of 1.7x in MHA computation and 1.5x in end-to-end inference.
- Abstract(参考訳): 大規模な言語モデルは、強力な理解能力のために世界中で人気がある。
LLMのコアコンポーネントとして,並列化によるTransformerの高速化が熱い研究トピックとなっている。
Maskレイヤは、計算を減らすためにTransformerにスパーシティを導入する。
しかし、従来の研究はスパーストランスフォーマーの性能最適化にはほとんど焦点を当てていなかった。
さらに、規則に基づくメカニズムは混合型演算子の融合機会を無視し、様々なシーケンス長に適応できない。
上記の問題に対処するため、STOFは、フレキシブルマスキングとGPU上の演算子融合によるスパーストランスフォーマーの最適化を組み込んだフレームワークである。
まず,ストレージフォーマットとカーネル実装を多面的注目のために統一する。
次に,テンプレートのコンパイルに融合スキームをマッピングし,二段階検索エンジンによる最適パラメータ設定を決定する。
実験の結果,STOFは最先端の処理と比較して,MHA計算では1.7倍,エンドツーエンド推論では1.5倍の最大高速化を達成した。
関連論文リスト
- Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - LLM Inference Acceleration via Efficient Operation Fusion [1.350507740574158]
Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。
Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。
このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
論文 参考訳(メタデータ) (2025-02-24T23:42:37Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Efficient Mixed Transformer for Single Image Super-Resolution [1.7740376367999706]
Mixed Transformer Block (MTB) は複数の連続トランス層から構成される。
Pixel Mixer (PM) はSelf-Attention (SA) を置き換えるために使用される。
PMは、ピクセルシフト操作による局所的な知識集約を強化することができる。
論文 参考訳(メタデータ) (2023-05-19T03:19:38Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。