論文の概要: DeepliteRT: Computer Vision at the Edge
- arxiv url: http://arxiv.org/abs/2309.10878v1
- Date: Tue, 19 Sep 2023 18:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 18:03:56.932015
- Title: DeepliteRT: Computer Vision at the Edge
- Title(参考訳): DeepliteRT:エッジでのコンピュータビジョン
- Authors: Saad Ashfaq, Alexander Hoffman, Saptarshi Mitra, Sudhakar Sah,
MohammadHossein AskariHemmat, Ehsan Saboori
- Abstract要約: DeepliteRTはARMデバイス上での超低ビットモデルのコンパイル、チューニング、推論のためのエンドツーエンドソリューションである。
最適化された32ビット浮動小数点、8ビット整数、2ビットベースラインに対する分類と検出モデルにおけるDeepliteRTの性能を解析する。
- 参考スコア(独自算出の注目度): 40.44316688055993
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The proliferation of edge devices has unlocked unprecedented opportunities
for deep learning model deployment in computer vision applications. However,
these complex models require considerable power, memory and compute resources
that are typically not available on edge platforms. Ultra low-bit quantization
presents an attractive solution to this problem by scaling down the model
weights and activations from 32-bit to less than 8-bit. We implement highly
optimized ultra low-bit convolution operators for ARM-based targets that
outperform existing methods by up to 4.34x. Our operator is implemented within
Deeplite Runtime (DeepliteRT), an end-to-end solution for the compilation,
tuning, and inference of ultra low-bit models on ARM devices. Compiler passes
in DeepliteRT automatically convert a fake-quantized model in full precision to
a compact ultra low-bit representation, easing the process of quantized model
deployment on commodity hardware. We analyze the performance of DeepliteRT on
classification and detection models against optimized 32-bit floating-point,
8-bit integer, and 2-bit baselines, achieving significant speedups of up to
2.20x, 2.33x and 2.17x, respectively.
- Abstract(参考訳): エッジデバイスの普及は、コンピュータビジョンアプリケーションにおけるディープラーニングモデル展開における前例のない機会を解放した。
しかし、これらの複雑なモデルは、エッジプラットフォームでは一般的に利用できないかなりの電力、メモリ、計算リソースを必要とする。
超低ビット量子化は、モデルウェイトとアクティベーションを32ビットから8ビット未満にスケールダウンすることでこの問題に魅力的な解決策をもたらす。
ARMベースのターゲットに対して,高度に最適化された超低ビット畳み込み演算子を実装した。
私たちのオペレータは、ARMデバイス上での超低ビットモデルのコンパイル、チューニング、推論のためのエンドツーエンドソリューションであるDeeplite Runtime(DeepliteRT)内に実装されています。
DeepliteRTのコンパイラは、偽量子化モデルを自動的に完全精度で超低ビット表現に変換することで、コモディティハードウェア上での量子化モデル展開のプロセスを緩和する。
最適化32ビット浮動小数点,8ビット整数,2ビットベースラインに対する分類と検出モデルにおけるDeepliteRTの性能を解析し,最大2.20倍,2.33倍,2.17倍の高速化を実現した。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Binary and Ternary Natural Language Generation [24.295815261826153]
三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。
完全精度ネットワーク上では、複数の桁の効率向上を約束する。
しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。
要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
論文 参考訳(メタデータ) (2023-06-02T18:01:02Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Accelerating Deep Learning Model Inference on Arm CPUs with Ultra-Low
Bit Quantization and Runtime [57.5143536744084]
ディープラーニングモデルの高性能化は、高い計算、ストレージ、電力要求を犠牲にしている。
我々はDeplite Neutrinoを導入し、DepliteはArmベースのプラットフォームに超低ビット量子化モデルを展開する。
論文 参考訳(メタデータ) (2022-07-18T15:05:17Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - FBGEMM: Enabling High-Performance Low-Precision Deep Learning Inference [1.1292678337479967]
fbgemmは、次世代cpuの高性能量子化推論のための高性能カーネルライブラリである。
fbgemmは、高速なgem実装で共通量子化演算を融合させ、実行時に形状およびサイズ固有のカーネルコード生成によって効率を向上する。
このライブラリはfacebookにデプロイされ、現在のプロダクションベースラインの2倍以上のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-01-13T00:34:04Z) - Efficient Execution of Quantized Deep Learning Models: A Compiler
Approach [6.616902691349208]
多くのアプリケーションがディープラーニングモデルを使用して予測関数を実装している。
TFLite、MXNet、PyTorchといったディープラーニングフレームワークは、開発者がわずかの精度でモデルを定量化できる。
様々なハードウェアプラットフォーム上で量子化されたモデルを実行するのに適していない。
論文 参考訳(メタデータ) (2020-06-18T01:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。