論文の概要: Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via
msGeMM
- arxiv url: http://arxiv.org/abs/2310.06178v1
- Date: Mon, 9 Oct 2023 22:06:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:28:06.840083
- Title: Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via
msGeMM
- Title(参考訳): ルックアップmAI GeMM:msGeMMによるAI GeMMのパフォーマンスを2.5倍に向上
- Authors: Saeed Maleki
- Abstract要約: 本稿では,msGeMMと呼ばれる新しいアルゴリズムを提案し,精度の低いAIモデルでは乗算を2.5倍減らし,命令を追加することができることを示した。
このアルゴリズムの効率的な実装には、コアの速度で小さなルックアップテーブルから要素を追加できる特別なコアが必要である。
- 参考スコア(独自算出の注目度): 1.2222687568021031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI models are increasing in size and recent advancement in the community has
shown that unlike HPC applications where double precision datatype are
required, lower-precision datatypes such as fp8 or int4 are sufficient to bring
the same model quality both for training and inference. Following these trends,
GPU vendors such as NVIDIA and AMD have added hardware support for fp16, fp8
and int8 GeMM operations with an exceptional performance via Tensor Cores.
However, this paper proposes a new algorithm called msGeMM which shows that AI
models with low-precision datatypes can run with ~2.5x fewer multiplication and
add instructions. Efficient implementation of this algorithm requires special
CUDA cores with the ability to add elements from a small look-up table at the
rate of Tensor Cores.
- Abstract(参考訳): AIモデルはサイズが大きくなり、コミュニティの最近の進歩により、二重精度のデータ型を必要とするHPCアプリケーションとは異なり、fp8やint4のような低精度のデータ型はトレーニングと推論の両方に同じモデル品質をもたらすのに十分であることが示された。
NVIDIAやAMDといったGPUベンダは、fp16、fp8、int8 GeMM操作のハードウェアサポートを追加し、Tensor Coresを通じて例外的なパフォーマンスを実現している。
しかし,本論文では,msGeMMと呼ばれるアルゴリズムを提案し,精度の低いAIモデルでは乗算を2.5倍減らし,命令を追加することができることを示した。
このアルゴリズムの効率的な実装には、テンソルコアの速度で小さなルックアップテーブルから要素を追加できる特別なCUDAコアが必要である。
関連論文リスト
- Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Element-Wise Attention Layers: an option for optimization [0.0]
配列乗算を用いることで,Dot-Product Attentionを要素ワイズに適応させる新しいアテンション機構を提案する。
結果は、このメカニズムにより、Fashion MNISTデータセットのVGGライクなデータセットの92%の精度が得られ、パラメータの数を97%削減できることを示している。
論文 参考訳(メタデータ) (2023-02-10T19:50:34Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - A Computational Approach to Packet Classification [11.661429717472918]
既存の手法のメモリスケーリングを改善する新しい手法であるNuevoMatchを提案する。
新しいデータ構造であるRange Query Recursive Model Index (RQ-RMI)は、NuevoMatchがメインメモリへのアクセスの大半を置き換えることを可能にするキーコンポーネントである。
本稿では、RQ-RMIに基づく分類の正確性を保証する効率的なトレーニングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-02-10T13:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。