論文の概要: Understanding Cache Boundness of ML Operators on ARM Processors
- arxiv url: http://arxiv.org/abs/2102.00932v1
- Date: Mon, 1 Feb 2021 16:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:00:46.213961
- Title: Understanding Cache Boundness of ML Operators on ARM Processors
- Title(参考訳): ARMプロセッサ上のML演算子のキャッシュ境界の理解
- Authors: Bernhard Klein and Christoph Gratl and Manfred M\"ucke and Holger
Fr\"oning
- Abstract要約: これは、組み込みARMプロセッサの基本ハードウェア限界と比較して、TVMで生成された高密度および畳み込み演算子に関する最初の詳細な分析である。
単一精度の一般行列乗算(GEMM)と畳み込みはL1-cache-readバンド幅で結合される。
8ビットおよびビットシリアル量子化作用素の探索は、量子化が関連するスピードアップを達成するために使用できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning compilers like TVM allow a fast and flexible deployment on
embedded CPUs. This enables the use of non-standard operators, which are common
in ML compression techniques. However, it is necessary to understand the
limitations of typical compute-intense operators in ML workloads to design a
proper solution. This is the first in-detail analysis of dense and convolution
operators, generated with TVM, that compares to the fundamental hardware limits
of embedded ARM processors. Thereby it explains the gap between computational
peak performance, theoretical and measured, and real-world state-of-the-art
results, created with TVM and openBLAS. Instead, one can see that
single-precision general matrix multiply (GEMM) and convolutions are bound by
L1-cache-read bandwidth. Explorations of 8-bit and bit-serial quantized
operators show that quantization can be used to achieve relevant speedups
compared to cache-bound floating-point operators. However, the performance of
quantized operators highly depends on the interaction between data layout and
bit packing.
- Abstract(参考訳): TVMのような機械学習コンパイラは、組み込みCPUに高速で柔軟なデプロイを可能にする。
これにより、ML圧縮技術で一般的な非標準演算子の使用が可能になる。
しかし、適切なソリューションを設計するには、mlワークロードにおける典型的な計算インテンシーオペレータの制限を理解する必要がある。
これは、組み込みARMプロセッサの基本ハードウェア制限と比較して、TVMで生成された高密度および畳み込み演算子の最初の詳細分析です。
これにより、TVMとopenBLASで作成された計算ピーク性能、理論と測定値、および実世界の最先端結果のギャップが説明できる。
代わりに、単精度一般行列乗算(GEMM)と畳み込みがL1キャッシュ可読帯域でバインドされていることがわかる。
8ビットおよびビットシリアル量子化演算子の探索は、キャッシュバウンド浮動小数点演算子と比較して、量子化が関連するスピードアップを達成するために使用できることを示した。
しかし、量子化演算子の性能はデータレイアウトとビットパッキングの相互作用に大きく依存する。
関連論文リスト
- ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。