Fugu-MT 論文翻訳(概要): Understanding Cache Boundness of ML Operators on ARM Processors

論文の概要: Understanding Cache Boundness of ML Operators on ARM Processors

arxiv url: http://arxiv.org/abs/2102.00932v1
Date: Mon, 1 Feb 2021 16:05:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-02 16:00:46.213961
Title: Understanding Cache Boundness of ML Operators on ARM Processors
Title（参考訳）: ARMプロセッサ上のML演算子のキャッシュ境界の理解
Authors: Bernhard Klein and Christoph Gratl and Manfred M\"ucke and Holger Fr\"oning
Abstract要約: これは、組み込みARMプロセッサの基本ハードウェア限界と比較して、TVMで生成された高密度および畳み込み演算子に関する最初の詳細な分析である。単一精度の一般行列乗算(GEMM)と畳み込みはL1-cache-readバンド幅で結合される。 8ビットおよびビットシリアル量子化作用素の探索は、量子化が関連するスピードアップを達成するために使用できることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine Learning compilers like TVM allow a fast and flexible deployment on embedded CPUs. This enables the use of non-standard operators, which are common in ML compression techniques. However, it is necessary to understand the limitations of typical compute-intense operators in ML workloads to design a proper solution. This is the first in-detail analysis of dense and convolution operators, generated with TVM, that compares to the fundamental hardware limits of embedded ARM processors. Thereby it explains the gap between computational peak performance, theoretical and measured, and real-world state-of-the-art results, created with TVM and openBLAS. Instead, one can see that single-precision general matrix multiply (GEMM) and convolutions are bound by L1-cache-read bandwidth. Explorations of 8-bit and bit-serial quantized operators show that quantization can be used to achieve relevant speedups compared to cache-bound floating-point operators. However, the performance of quantized operators highly depends on the interaction between data layout and bit packing.
Abstract（参考訳）: TVMのような機械学習コンパイラは、組み込みCPUに高速で柔軟なデプロイを可能にする。これにより、ML圧縮技術で一般的な非標準演算子の使用が可能になる。しかし、適切なソリューションを設計するには、mlワークロードにおける典型的な計算インテンシーオペレータの制限を理解する必要がある。これは、組み込みARMプロセッサの基本ハードウェア制限と比較して、TVMで生成された高密度および畳み込み演算子の最初の詳細分析です。これにより、TVMとopenBLASで作成された計算ピーク性能、理論と測定値、および実世界の最先端結果のギャップが説明できる。代わりに、単精度一般行列乗算(GEMM)と畳み込みがL1キャッシュ可読帯域でバインドされていることがわかる。 8ビットおよびビットシリアル量子化演算子の探索は、キャッシュバウンド浮動小数点演算子と比較して、量子化が関連するスピードアップを達成するために使用できることを示した。しかし、量子化演算子の性能はデータレイアウトとビットパッキングの相互作用に大きく依存する。

関連論文リスト

BiVM: Accurate Binarized Neural Network for Efficient Video Matting [56.000594826508504]
リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。 BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
論文参考訳（メタデータ） (2025-07-06T16:32:37Z)
Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文参考訳（メタデータ） (2025-06-14T07:39:15Z)
TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference [10.054508615667071]
大規模言語モデル(LLM)の分散推論は、NVLinkのような高速な相互接続を介して接続されたGPUでさえ、最大20%のオーバーヘッドを発生させることができる。これらの課題に対処するため、TokenWeaveを紹介します。私たちの評価では、レイテンシの1.29倍のスピードアップと、複数のモデルやワークロードで1.26倍のスループットを実現しています。
論文参考訳（メタデータ） (2025-05-16T14:53:50Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文参考訳（メタデータ） (2024-08-16T06:39:08Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。 LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文参考訳（メタデータ） (2024-06-16T09:51:55Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Pex: Memory-efficient Microcontroller Deep Learning through Partial Execution [11.336229510791481]
マイクロコントローラ深層学習のための新しい実行パラダイムについて論じる。ニューラルネットワークの実行を変更して、メモリの完全なバッファーを作らないようにする。これは演算子のプロパティを利用することで実現され、一度にインプット/アウトプットのごく一部を消費/生産することができる。
論文参考訳（メタデータ） (2022-11-30T18:47:30Z)
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。 175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文参考訳（メタデータ） (2022-08-15T17:08:50Z)
Algorithm to Compilation Co-design: An Integrated View of Neural Network Sparsity [0.8566457170664925]
BERT言語モデルの変圧器ブロックの重み付けに構造化および非構造化プルーニングを適用した。本研究では,モデル決定と空間的拡張実行に対する直接的影響の関係について検討する。
論文参考訳（メタデータ） (2021-06-16T15:13:26Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文参考訳（メタデータ） (2020-10-09T21:02:47Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。