論文の概要: Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime
- arxiv url: http://arxiv.org/abs/2207.08820v1
- Date: Mon, 18 Jul 2022 15:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:15:34.439866
- Title: Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime
- Title(参考訳): 超低ビット量子化と実行によるアームCPUのディープラーニングモデル推論の高速化
- Authors: Saad Ashfaq, MohammadHossein AskariHemmat, Sudhakar Sah, Ehsan
Saboori, Olivier Mastropietro, Alexander Hoffman
- Abstract要約: ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
- 参考スコア(独自算出の注目度): 57.5143536744084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Learning has been one of the most disruptive technological advancements
in recent times. The high performance of deep learning models comes at the
expense of high computational, storage and power requirements. Sensing the
immediate need for accelerating and compressing these models to improve
on-device performance, we introduce Deeplite Neutrino for production-ready
optimization of the models and Deeplite Runtime for deployment of ultra-low bit
quantized models on Arm-based platforms. We implement low-level quantization
kernels for Armv7 and Armv8 architectures enabling deployment on the vast array
of 32-bit and 64-bit Arm-based devices. With efficient implementations using
vectorization, parallelization, and tiling, we realize speedups of up to 2x and
2.2x compared to TensorFlow Lite with XNNPACK backend on classification and
detection models, respectively. We also achieve significant speedups of up to
5x and 3.2x compared to ONNX Runtime for classification and detection models,
respectively.
- Abstract(参考訳): ディープラーニングは、近年で最も破壊的な技術進歩の1つです。
ディープラーニングモデルのハイパフォーマンスは、高い計算能力、ストレージ、電力要件を犠牲にしている。
デバイス上での性能向上のためにこれらのモデルの高速化と圧縮の即時の必要性を察知し、生産レベルの最適化にDeeplite Neutrinoを導入し、Armベースのプラットフォームに超低ビット量子化モデルを展開するDeeplite Runtimeを紹介した。
我々はArmv7とArmv8アーキテクチャ向けに低レベルの量子化カーネルを実装し、32ビットと64ビットのArmベースのデバイスに展開する。
ベクトル化,並列化,タイリングを用いた効率的な実装により,分類モデルと検出モデルにおいて,TensorFlow LiteとXNNPACKバックエンドのそれぞれと比較して最大2倍,2.2倍の高速化を実現する。
また,ONNXランタイムと比較して,最大5倍,3.2倍の高速化を実現している。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - DeepliteRT: Computer Vision at the Edge [40.44316688055993]
DeepliteRTはARMデバイス上での超低ビットモデルのコンパイル、チューニング、推論のためのエンドツーエンドソリューションである。
最適化された32ビット浮動小数点、8ビット整数、2ビットベースラインに対する分類と検出モデルにおけるDeepliteRTの性能を解析する。
論文 参考訳(メタデータ) (2023-09-19T18:58:38Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize
Mixture-of-Experts Training [13.346719319555943]
Mixture-of-Experts (MoE)は、ベースモデルにわずかにアクティベートされたエキスパートブロックを追加するニューラルネットワークアーキテクチャである。
現在の分散ディープラーニングフレームワークは、大規模なベースモデルで高品質なMoEモデルをトレーニングする能力に制限がある。
本稿では,データ,テンソル,エキスパート並列性を組み合わせた3次元ハイブリッド並列アルゴリズムDeepSpeed-TEDを提案する。
論文 参考訳(メタデータ) (2023-03-11T05:38:15Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - On the performance of deep learning models for time series
classification in streaming [0.0]
この研究は、データストリーミング分類のための様々なタイプのディープアーキテクチャのパフォーマンスを評価することである。
複数の時系列データセット上で,多層パーセプトロン,リカレント,畳み込み,時間的畳み込みニューラルネットワークなどのモデルを評価する。
論文 参考訳(メタデータ) (2020-03-05T11:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。