論文の概要: An Empirical Study of Low Precision Quantization for TinyML
- arxiv url: http://arxiv.org/abs/2203.05492v1
- Date: Thu, 10 Mar 2022 17:22:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 16:11:49.364441
- Title: An Empirical Study of Low Precision Quantization for TinyML
- Title(参考訳): TinyMLの低精度量子化に関する実証的研究
- Authors: Shaojie Zhuo, Hongyu Chen, Ramchalam Kinattinkara Ramakrishnan, Tommy
Chen, Chen Feng, Yicheng Lin, Parker Zhang, Liang Shen
- Abstract要約: モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
- 参考スコア(独自算出の注目度): 8.939851623894334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Tiny machine learning (tinyML) has emerged during the past few years aiming
to deploy machine learning models to embedded AI processors with highly
constrained memory and computation capacity. Low precision quantization is an
important model compression technique that can greatly reduce both memory
consumption and computation cost of model inference. In this study, we focus on
post-training quantization (PTQ) algorithms that quantize a model to low-bit
(less than 8-bit) precision with only a small set of calibration data and
benchmark them on different tinyML use cases. To achieve a fair comparison, we
build a simulated quantization framework to investigate recent PTQ algorithms.
Furthermore, we break down those algorithms into essential components and
re-assembled a generic PTQ pipeline. With ablation study on different
alternatives of components in the pipeline, we reveal key design choices when
performing low precision quantization. We hope this work could provide useful
data points and shed lights on the future research of low precision
quantization.
- Abstract(参考訳): tiny machine learning(tinyml)は、メモリと計算能力に制約のある組み込みaiプロセッサに機械学習モデルをデプロイすることを目的とした、ここ数年の間に登場した。
低精度量子化は、モデル推論のメモリ消費と計算コストを大幅に削減できる重要なモデル圧縮技術である。
本研究では,小セットのキャリブレーションデータを用いてモデルを低ビット(8ビット未満)精度に量子化するptq(post-training quantization)アルゴリズムに注目し,これらを異なるtinymlユースケースでベンチマークする。
公平な比較を実現するため,最近のPTQアルゴリズムを解析するためのシミュレーション量子化フレームワークを構築した。
さらに、これらのアルゴリズムを必須コンポーネントに分解し、汎用的なPTQパイプラインを再組み立てする。
パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の重要な設計選択を明らかにする。
この研究が有用なデータポイントを提供し、将来低精度量子化の研究に光を当てることを願っている。
関連論文リスト
- WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - Post-Training Quantization with Low-precision Minifloats and Integers on
FPGAs [41.10746835088149]
ポストトレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの精度を低下させる。
近年,8ビット浮動小数点量子化(FP8)をPTQの文脈でモデル推論に適用する研究が進められている。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - PD-Quant: Post-Training Quantization based on Prediction Difference
Metric [43.81334288840746]
ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
適切な量子化パラメータを決定する方法が、現在直面している主要な問題である。
PD-Quantは、グローバル情報を考慮してこの制限に対処する手法である。
論文 参考訳(メタデータ) (2022-12-14T05:48:58Z) - A didactic approach to quantum machine learning with a single qubit [68.8204255655161]
我々は、データ再ロード技術を用いて、単一のキュービットで学習するケースに焦点を当てる。
我々は、Qiskit量子コンピューティングSDKを用いて、おもちゃと現実世界のデータセットに異なる定式化を実装した。
論文 参考訳(メタデータ) (2022-11-23T18:25:32Z) - End-to-end resource analysis for quantum interior point methods and
portfolio optimization [92.13478140615481]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Structural risk minimization for quantum linear classifiers [0.0]
qml(quantum machine learning)は、量子コンピューティングの短期的"キラーアプリケーション"の典型的な候補の1つとして注目される。
明示的および暗黙的量子線形分類器と呼ばれる2つの密接に関連したQMLモデルの容量測定を研究する。
我々は,QMLモデルで使用される観測値のランクとフロベニウスノルムが,モデルのキャパシティを密接に制御していることを確認した。
論文 参考訳(メタデータ) (2021-05-12T10:39:55Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。