論文の概要: Understanding Cache Boundness of ML Operators on ARM Processors
- arxiv url: http://arxiv.org/abs/2102.00932v1
- Date: Mon, 1 Feb 2021 16:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:00:46.213961
- Title: Understanding Cache Boundness of ML Operators on ARM Processors
- Title(参考訳): ARMプロセッサ上のML演算子のキャッシュ境界の理解
- Authors: Bernhard Klein and Christoph Gratl and Manfred M\"ucke and Holger
Fr\"oning
- Abstract要約: これは、組み込みARMプロセッサの基本ハードウェア限界と比較して、TVMで生成された高密度および畳み込み演算子に関する最初の詳細な分析である。
単一精度の一般行列乗算(GEMM)と畳み込みはL1-cache-readバンド幅で結合される。
8ビットおよびビットシリアル量子化作用素の探索は、量子化が関連するスピードアップを達成するために使用できることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning compilers like TVM allow a fast and flexible deployment on
embedded CPUs. This enables the use of non-standard operators, which are common
in ML compression techniques. However, it is necessary to understand the
limitations of typical compute-intense operators in ML workloads to design a
proper solution. This is the first in-detail analysis of dense and convolution
operators, generated with TVM, that compares to the fundamental hardware limits
of embedded ARM processors. Thereby it explains the gap between computational
peak performance, theoretical and measured, and real-world state-of-the-art
results, created with TVM and openBLAS. Instead, one can see that
single-precision general matrix multiply (GEMM) and convolutions are bound by
L1-cache-read bandwidth. Explorations of 8-bit and bit-serial quantized
operators show that quantization can be used to achieve relevant speedups
compared to cache-bound floating-point operators. However, the performance of
quantized operators highly depends on the interaction between data layout and
bit packing.
- Abstract(参考訳): TVMのような機械学習コンパイラは、組み込みCPUに高速で柔軟なデプロイを可能にする。
これにより、ML圧縮技術で一般的な非標準演算子の使用が可能になる。
しかし、適切なソリューションを設計するには、mlワークロードにおける典型的な計算インテンシーオペレータの制限を理解する必要がある。
これは、組み込みARMプロセッサの基本ハードウェア制限と比較して、TVMで生成された高密度および畳み込み演算子の最初の詳細分析です。
これにより、TVMとopenBLASで作成された計算ピーク性能、理論と測定値、および実世界の最先端結果のギャップが説明できる。
代わりに、単精度一般行列乗算(GEMM)と畳み込みがL1キャッシュ可読帯域でバインドされていることがわかる。
8ビットおよびビットシリアル量子化演算子の探索は、キャッシュバウンド浮動小数点演算子と比較して、量子化が関連するスピードアップを達成するために使用できることを示した。
しかし、量子化演算子の性能はデータレイアウトとビットパッキングの相互作用に大きく依存する。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A High Performance Compiler for Very Large Scale Surface Code
Computations [51.61644300572385]
大規模量子誤り訂正のための最初の高性能コンパイラを提案する。
任意の量子回路を格子手術に基づく表面符号演算に変換する。
コンパイラは、物理デバイスのリアルタイム操作に向けられた速度で、ストリーミングパイプラインを使用して数百万のゲートを処理することができる。
論文 参考訳(メタデータ) (2023-02-05T19:06:49Z) - Pex: Memory-efficient Microcontroller Deep Learning through Partial
Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。
ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。
これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文 参考訳(メタデータ) (2022-11-30T18:47:30Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Algorithm to Compilation Co-design: An Integrated View of Neural Network
Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。
本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文 参考訳(メタデータ) (2021-06-16T15:13:26Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - MinConvNets: A new class of multiplication-less Neural Networks [1.0323063834827415]
最小のコンパレータ操作で前方伝播の乗算を近似するMinConvNetを紹介します。
特定の制約下で前方伝搬における最小演算で乗算子を置き換えることが可能であることを示す。
また、よく訓練された正確なCNNからの伝達学習を用いて、MinConvNetsの推論中に等価な精度が得られることを示す。
論文 参考訳(メタデータ) (2021-01-23T12:18:52Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。