Fugu-MT 論文翻訳(概要): Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via msGeMM

論文の概要: Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via msGeMM

arxiv url: http://arxiv.org/abs/2310.06178v1
Date: Mon, 9 Oct 2023 22:06:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 21:28:06.840083
Title: Look-Up mAI GeMM: Increasing AI GeMMs Performance by Nearly 2.5x via msGeMM
Title（参考訳）: ルックアップmAI GeMM:msGeMMによるAI GeMMのパフォーマンスを2.5倍に向上
Authors: Saeed Maleki
Abstract要約: 本稿では,msGeMMと呼ばれる新しいアルゴリズムを提案し,精度の低いAIモデルでは乗算を2.5倍減らし,命令を追加することができることを示した。このアルゴリズムの効率的な実装には、コアの速度で小さなルックアップテーブルから要素を追加できる特別なコアが必要である。
参考スコア（独自算出の注目度）: 1.2222687568021031
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI models are increasing in size and recent advancement in the community has shown that unlike HPC applications where double precision datatype are required, lower-precision datatypes such as fp8 or int4 are sufficient to bring the same model quality both for training and inference. Following these trends, GPU vendors such as NVIDIA and AMD have added hardware support for fp16, fp8 and int8 GeMM operations with an exceptional performance via Tensor Cores. However, this paper proposes a new algorithm called msGeMM which shows that AI models with low-precision datatypes can run with ~2.5x fewer multiplication and add instructions. Efficient implementation of this algorithm requires special CUDA cores with the ability to add elements from a small look-up table at the rate of Tensor Cores.
Abstract（参考訳）: AIモデルはサイズが大きくなり、コミュニティの最近の進歩により、二重精度のデータ型を必要とするHPCアプリケーションとは異なり、fp8やint4のような低精度のデータ型はトレーニングと推論の両方に同じモデル品質をもたらすのに十分であることが示された。 NVIDIAやAMDといったGPUベンダは、fp16、fp8、int8 GeMM操作のハードウェアサポートを追加し、Tensor Coresを通じて例外的なパフォーマンスを実現している。しかし,本論文では,msGeMMと呼ばれるアルゴリズムを提案し,精度の低いAIモデルでは乗算を2.5倍減らし,命令を追加することができることを示した。このアルゴリズムの効率的な実装には、テンソルコアの速度で小さなルックアップテーブルから要素を追加できる特別なCUDAコアが必要である。

関連論文リスト

The Cambrian Explosion of Mixed-Precision Matrix Multiplication for Quantized Deep Learning Inference [0.9954176833299684]
ディープラーニング(DL)は、従来の64ビット浮動小数点(FP64)計算から、縮小精度のフォーマットへと変化した。本稿では,従来のハイパフォーマンスなgemを改訂し,それを混合精度整数算術に適用するための戦略について述べる。
論文参考訳（メタデータ） (2025-06-13T12:40:16Z)
MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving [12.068287973463786]
Serving Large Language Models (LLMs) はAIを利用したアプリケーションには必須だが、かなりの計算資源を必要とする。低精度の計算が資源消費を減らしながら効率を向上する鍵となる技術として登場した。低精度カーネルを生成するための既存のアプローチは、2つのパワーを持つウェイトビット幅に限られている。
論文参考訳（メタデータ） (2025-04-17T14:45:03Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI [2.655264633057144]
General matrix multiplication (GEMM) は、様々なアプリケーションにおけるデータ処理のためのユビキタスコンピューティングカーネル/アルゴリズムである。エッジコンピューティングへの最近のシフトは、一元計算に基づくGEMMアーキテクチャに影響を与えた。本稿では,時間的符号化に基づく新しいGEMMアーキテクチャであるtuGEMMを提案し,正確な計算を行う。
論文参考訳（メタデータ） (2024-12-23T20:30:28Z)
Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-06T14:44:34Z)
Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。 SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文参考訳（メタデータ） (2023-09-19T03:20:02Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Element-Wise Attention Layers: an option for optimization [0.0]
配列乗算を用いることで,Dot-Product Attentionを要素ワイズに適応させる新しいアテンション機構を提案する。結果は、このメカニズムにより、Fashion MNISTデータセットのVGGライクなデータセットの92%の精度が得られ、パラメータの数を97%削減できることを示している。
論文参考訳（メタデータ） (2023-02-10T19:50:34Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)
A Computational Approach to Packet Classification [11.661429717472918]
既存の手法のメモリスケーリングを改善する新しい手法であるNuevoMatchを提案する。新しいデータ構造であるRange Query Recursive Model Index (RQ-RMI)は、NuevoMatchがメインメモリへのアクセスの大半を置き換えることを可能にするキーコンポーネントである。本稿では、RQ-RMIに基づく分類の正確性を保証する効率的なトレーニングアルゴリズムについて述べる。
論文参考訳（メタデータ） (2020-02-10T13:47:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。