論文の概要: SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention
- arxiv url: http://arxiv.org/abs/2407.16847v1
- Date: Tue, 23 Jul 2024 21:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:22:45.482832
- Title: SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention
- Title(参考訳): SPLAT: SParse reguLarアテンションのための最適化GPUコード生成フレームワーク
- Authors: Ahan Gupta, Yueming Yuan, Devansh Jain, Yuhao Ge, David Aponte, Yanqi Zhou, Charith Mendis,
- Abstract要約: MHSA(Multi-head-self-attention)メカニズムは、自然言語処理や視覚タスクにまたがって、最先端のSOTA(State-of-the-art)パフォーマンスを実現する。
このボトルネックを回避するために、研究者は様々なスパースMHSAモデルを提案しており、そこでは注意のサブセットが計算されている。
現在のスパースライブラリとコンパイラは、その基盤となるスパースフォーマットのため、多様なスパース-MHSAパターンの高性能実装をサポートしていない。
- 参考スコア(独自算出の注目度): 3.39556805281926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head-self-attention (MHSA) mechanisms achieve state-of-the-art (SOTA) performance across natural language processing and vision tasks. However, their quadratic dependence on sequence lengths has bottlenecked inference speeds. To circumvent this bottleneck, researchers have proposed various sparse-MHSA models, where a subset of full attention is computed. Despite their promise, current sparse libraries and compilers do not support high-performance implementations for diverse sparse-MHSA patterns due to the underlying sparse formats they operate on. These formats, which are typically designed for high-performance & scientific computing applications, are either curated for extreme amounts of random sparsity (<1% non-zero values), or specific sparsity patterns. However, the sparsity patterns in sparse-MHSA are moderately sparse (10-50% non-zero values) and varied, resulting in existing sparse-formats trading off generality for performance. We bridge this gap, achieving both generality and performance, by proposing a novel sparse format: affine-compressed-sparse-row (ACSR) and supporting code-generation scheme, SPLAT, that generates high-performance implementations for diverse sparse-MHSA patterns on GPUs. Core to our proposed format and code generation algorithm is the observation that common sparse-MHSA patterns have uniquely regular geometric properties. These properties, which can be analyzed just-in-time, expose novel optimizations and tiling strategies that SPLAT exploits to generate high-performance implementations for diverse patterns. To demonstrate SPLAT's efficacy, we use it to generate code for various sparse-MHSA models, achieving geomean speedups of 2.05x and 4.05x over hand-written kernels written in triton and TVM respectively on A100 GPUs. Moreover, its interfaces are intuitive and easy to use with existing implementations of MHSA in JAX.
- Abstract(参考訳): MHSA(Multi-head-self-attention)メカニズムは、自然言語処理や視覚タスクにまたがって、最先端のSOTA(State-of-the-art)パフォーマンスを実現する。
しかし、シーケンス長に対する2次的依存は、推論速度をボトルネックにした。
このボトルネックを回避するために、研究者は様々なスパースMHSAモデルを提案しており、そこでは注意のサブセットが計算されている。
その約束にもかかわらず、現在のスパースライブラリとコンパイラは、彼らが操作するスパースフォーマットの根底にあるため、様々なスパース-MHSAパターンのハイパフォーマンス実装をサポートしていない。
これらのフォーマットは、通常、高性能で科学的な計算用途のために設計されており、極端に多くのランダムなスパーシリティ(1%の非ゼロ値)または特定のスパーシティパターンのためにキュレートされる。
しかし、スパースMHSAのスパースパターンは適度にスパース(10-50%の非ゼロ値)であり、その結果、既存のスパースフォーマットがパフォーマンスの一般性から引き離されている。
Affine-compressed-sparse-row (ACSR) とコード生成スキーム SPLAT をサポートし,GPU 上の多様なスパース・MHSA パターンの高性能実装を生成する。
提案したフォーマットとコード生成アルゴリズムの核となるのは、共通スパース・MHSAパターンが一意に規則的な幾何学的性質を持つという観察である。
ジャスト・イン・タイムで解析できるこれらの特性は、SPLATが様々なパターンに対して高性能な実装を生成するために利用する新しい最適化とタイリング戦略を明らかにする。
SPLATの有効性を示すために、A100 GPU上でトリトンおよびTVMで書かれた手書きカーネル上で、それぞれ2.05xと4.05xのジオ平均スピードアップを達成し、様々なスパースMHSAモデルのコードを生成する。
さらに、そのインターフェースは直感的で、JAXにおける既存のMHSAの実装で簡単に使用できます。
関連論文リスト
- Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - Holographic Global Convolutional Networks for Long-Range Prediction Tasks in Malware Detection [50.7263393517558]
ホログラフィック還元表現(HRR)の特性を利用したホログラフィックグローバル畳み込みネットワーク(HGConv)を導入する。
他のグローバルな畳み込み法とは異なり、我々の手法は複雑なカーネル計算や人工カーネル設計を必要としない。
提案手法は,Microsoft Malware Classification Challenge, Drebin, EMBERのマルウェアベンチマークで新たなSOTA結果を得た。
論文 参考訳(メタデータ) (2024-03-23T15:49:13Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - The Synergy of Speculative Decoding and Batching in Serving Large
Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。
提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-10-28T20:36:36Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - COAST: COntrollable Arbitrary-Sampling NeTwork for Compressive Sensing [27.870537087888334]
本研究では,任意のサンプリング(サンプリング行列を含む)の問題を1つのモデルで解くために,COAST(Arbitrary-Sampling neTwork)を提案する。
COASTは1つのモデルで任意のサンプリング行列を処理でき、高速で最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-07-15T10:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。