論文の概要: An Empirical Study of Low Precision Quantization for TinyML
- arxiv url: http://arxiv.org/abs/2203.05492v1
- Date: Thu, 10 Mar 2022 17:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 16:11:49.364441
- Title: An Empirical Study of Low Precision Quantization for TinyML
- Title(参考訳): TinyMLの低精度量子化に関する実証的研究
- Authors: Shaojie Zhuo, Hongyu Chen, Ramchalam Kinattinkara Ramakrishnan, Tommy
Chen, Chen Feng, Yicheng Lin, Parker Zhang, Liang Shen
- Abstract要約: モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
- 参考スコア(独自算出の注目度): 8.939851623894334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tiny machine learning (tinyML) has emerged during the past few years aiming
to deploy machine learning models to embedded AI processors with highly
constrained memory and computation capacity. Low precision quantization is an
important model compression technique that can greatly reduce both memory
consumption and computation cost of model inference. In this study, we focus on
post-training quantization (PTQ) algorithms that quantize a model to low-bit
(less than 8-bit) precision with only a small set of calibration data and
benchmark them on different tinyML use cases. To achieve a fair comparison, we
build a simulated quantization framework to investigate recent PTQ algorithms.
Furthermore, we break down those algorithms into essential components and
re-assembled a generic PTQ pipeline. With ablation study on different
alternatives of components in the pipeline, we reveal key design choices when
performing low precision quantization. We hope this work could provide useful
data points and shed lights on the future research of low precision
quantization.
- Abstract(参考訳): tiny machine learning(tinyml)は、メモリと計算能力に制約のある組み込みaiプロセッサに機械学習モデルをデプロイすることを目的とした、ここ数年の間に登場した。
低精度量子化は、モデル推論のメモリ消費と計算コストを大幅に削減できる重要なモデル圧縮技術である。
本研究では,小セットのキャリブレーションデータを用いてモデルを低ビット(8ビット未満)精度に量子化するptq(post-training quantization)アルゴリズムに注目し,これらを異なるtinymlユースケースでベンチマークする。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するためのシミュレーション量子化フレームワークを構築した。
さらに、これらのアルゴリズムを必須コンポーネントに分解し、汎用的なPTQパイプラインを再組み立てする。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の重要な設計選択を明らかにする。
この研究が有用なデータポイントを提供し、将来低精度量子化の研究に光を当てることを願っている。
関連論文リスト
- Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。
本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。
8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:10:05Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - A didactic approach to quantum machine learning with a single qubit [68.8204255655161]
我々は、データ再ロード技術を用いて、単一のキュービットで学習するケースに焦点を当てる。
我々は、Qiskit量子コンピューティングSDKを用いて、おもちゃと現実世界のデータセットに異なる定式化を実装した。
論文 参考訳(メタデータ) (2022-11-23T18:25:32Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。