Fugu-MT 論文翻訳(概要): SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention

論文の概要: SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention

arxiv url: http://arxiv.org/abs/2407.16847v1
Date: Tue, 23 Jul 2024 21:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 15:22:45.482832
Title: SPLAT: A framework for optimised GPU code-generation for SParse reguLar ATtention
Title（参考訳）: SPLAT: SParse reguLarアテンションのための最適化GPUコード生成フレームワーク
Authors: Ahan Gupta, Yueming Yuan, Devansh Jain, Yuhao Ge, David Aponte, Yanqi Zhou, Charith Mendis,
Abstract要約: MHSA(Multi-head-self-attention)メカニズムは、自然言語処理や視覚タスクにまたがって、最先端のSOTA(State-of-the-art)パフォーマンスを実現する。このボトルネックを回避するために、研究者は様々なスパースMHSAモデルを提案しており、そこでは注意のサブセットが計算されている。現在のスパースライブラリとコンパイラは、その基盤となるスパースフォーマットのため、多様なスパース-MHSAパターンの高性能実装をサポートしていない。
参考スコア（独自算出の注目度）: 3.39556805281926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-head-self-attention (MHSA) mechanisms achieve state-of-the-art (SOTA) performance across natural language processing and vision tasks. However, their quadratic dependence on sequence lengths has bottlenecked inference speeds. To circumvent this bottleneck, researchers have proposed various sparse-MHSA models, where a subset of full attention is computed. Despite their promise, current sparse libraries and compilers do not support high-performance implementations for diverse sparse-MHSA patterns due to the underlying sparse formats they operate on. These formats, which are typically designed for high-performance & scientific computing applications, are either curated for extreme amounts of random sparsity (<1% non-zero values), or specific sparsity patterns. However, the sparsity patterns in sparse-MHSA are moderately sparse (10-50% non-zero values) and varied, resulting in existing sparse-formats trading off generality for performance. We bridge this gap, achieving both generality and performance, by proposing a novel sparse format: affine-compressed-sparse-row (ACSR) and supporting code-generation scheme, SPLAT, that generates high-performance implementations for diverse sparse-MHSA patterns on GPUs. Core to our proposed format and code generation algorithm is the observation that common sparse-MHSA patterns have uniquely regular geometric properties. These properties, which can be analyzed just-in-time, expose novel optimizations and tiling strategies that SPLAT exploits to generate high-performance implementations for diverse patterns. To demonstrate SPLAT's efficacy, we use it to generate code for various sparse-MHSA models, achieving geomean speedups of 2.05x and 4.05x over hand-written kernels written in triton and TVM respectively on A100 GPUs. Moreover, its interfaces are intuitive and easy to use with existing implementations of MHSA in JAX.
Abstract（参考訳）: MHSA(Multi-head-self-attention)メカニズムは、自然言語処理や視覚タスクにまたがって、最先端のSOTA(State-of-the-art)パフォーマンスを実現する。しかし、シーケンス長に対する2次的依存は、推論速度をボトルネックにした。このボトルネックを回避するために、研究者は様々なスパースMHSAモデルを提案しており、そこでは注意のサブセットが計算されている。その約束にもかかわらず、現在のスパースライブラリとコンパイラは、彼らが操作するスパースフォーマットの根底にあるため、様々なスパース-MHSAパターンのハイパフォーマンス実装をサポートしていない。これらのフォーマットは、通常、高性能で科学的な計算用途のために設計されており、極端に多くのランダムなスパーシリティ(1%の非ゼロ値)または特定のスパーシティパターンのためにキュレートされる。しかし、スパースMHSAのスパースパターンは適度にスパース(10-50%の非ゼロ値)であり、その結果、既存のスパースフォーマットがパフォーマンスの一般性から引き離されている。 Affine-compressed-sparse-row (ACSR) とコード生成スキーム SPLAT をサポートし,GPU 上の多様なスパース・MHSA パターンの高性能実装を生成する。提案したフォーマットとコード生成アルゴリズムの核となるのは、共通スパース・MHSAパターンが一意に規則的な幾何学的性質を持つという観察である。ジャスト・イン・タイムで解析できるこれらの特性は、SPLATが様々なパターンに対して高性能な実装を生成するために利用する新しい最適化とタイリング戦略を明らかにする。 SPLATの有効性を示すために、A100 GPU上でトリトンおよびTVMで書かれた手書きカーネル上で、それぞれ2.05xと4.05xのジオ平均スピードアップを達成し、様々なスパースMHSAモデルのコードを生成する。さらに、そのインターフェースは直感的で、JAXにおける既存のMHSAの実装で簡単に使用できます。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
Exploiting Unstructured Sparsity in Fully Homomorphic Encrypted DNNs [0.37570612254620583]
プライバシーに敏感な環境でのディープニューラルネットワーク(DNN)は、完全同型暗号化(FHE)における計算オーバーヘッドによって制約される本稿では,FHE行列乗算法における非構造的空間性について,モデルの精度要件を維持しつつ,その負担を軽減する方法として検討する。本研究では,任意の行列乗法で空間空間を利用でき,全ての空間領域において,ベースラインナイーブアルゴリズムと比較して実行時利益が得られることを示した。
論文参考訳（メタデータ） (2025-03-12T09:24:31Z)
Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。 Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文参考訳（メタデータ） (2024-07-03T01:24:44Z)
Holographic Global Convolutional Networks for Long-Range Prediction Tasks in Malware Detection [50.7263393517558]
ホログラフィック還元表現(HRR)の特性を利用したホログラフィックグローバル畳み込みネットワーク(HGConv)を導入する。他のグローバルな畳み込み法とは異なり、我々の手法は複雑なカーネル計算や人工カーネル設計を必要としない。提案手法は,Microsoft Malware Classification Challenge, Drebin, EMBERのマルウェアベンチマークで新たなSOTA結果を得た。
論文参考訳（メタデータ） (2024-03-23T15:49:13Z)
AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文参考訳（メタデータ） (2024-03-06T15:06:11Z)
The Synergy of Speculative Decoding and Batching in Serving Large Language Models [3.3849225405083336]
本稿では,異なるバッチサイズに対して最適な投機長を選択する新しい投機的復号法を提案する。提案手法は, 提案手法により, 固定された投機長を持つ, 最先端の投機復号方式と同等以上の性能が得られることを示す。
論文参考訳（メタデータ） (2023-10-28T20:36:36Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文参考訳（メタデータ） (2023-03-29T20:00:19Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文参考訳（メタデータ） (2022-04-23T02:45:55Z)
Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。 HSI再構成のための深層学習にHSI空間を埋め込んだCST 特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文参考訳（メタデータ） (2022-03-09T16:17:47Z)
COAST: COntrollable Arbitrary-Sampling NeTwork for Compressive Sensing [27.870537087888334]
本研究では,任意のサンプリング(サンプリング行列を含む)の問題を1つのモデルで解くために,COAST(Arbitrary-Sampling neTwork)を提案する。 COASTは1つのモデルで任意のサンプリング行列を処理でき、高速で最先端のパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2021-07-15T10:05:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。