Fugu-MT 論文翻訳(概要): An Empirical Study of Low Precision Quantization for TinyML

論文の概要: An Empirical Study of Low Precision Quantization for TinyML

arxiv url: http://arxiv.org/abs/2203.05492v1
Date: Thu, 10 Mar 2022 17:22:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-11 16:11:49.364441
Title: An Empirical Study of Low Precision Quantization for TinyML
Title（参考訳）: TinyMLの低精度量子化に関する実証的研究
Authors: Shaojie Zhuo, Hongyu Chen, Ramchalam Kinattinkara Ramakrishnan, Tommy Chen, Chen Feng, Yicheng Lin, Parker Zhang, Liang Shen
Abstract要約: モデルから低ビット(8ビット未満)の精度を小さなキャリブレーションデータで定量化するPTQアルゴリズムに着目する。公平な比較を実現するため,最近のPTQアルゴリズムを解析するために,シミュレーション量子化フレームワークを構築した。パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の鍵となる設計選択を明らかにする。
参考スコア（独自算出の注目度）: 8.939851623894334
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Tiny machine learning (tinyML) has emerged during the past few years aiming to deploy machine learning models to embedded AI processors with highly constrained memory and computation capacity. Low precision quantization is an important model compression technique that can greatly reduce both memory consumption and computation cost of model inference. In this study, we focus on post-training quantization (PTQ) algorithms that quantize a model to low-bit (less than 8-bit) precision with only a small set of calibration data and benchmark them on different tinyML use cases. To achieve a fair comparison, we build a simulated quantization framework to investigate recent PTQ algorithms. Furthermore, we break down those algorithms into essential components and re-assembled a generic PTQ pipeline. With ablation study on different alternatives of components in the pipeline, we reveal key design choices when performing low precision quantization. We hope this work could provide useful data points and shed lights on the future research of low precision quantization.
Abstract（参考訳）: tiny machine learning(tinyml)は、メモリと計算能力に制約のある組み込みaiプロセッサに機械学習モデルをデプロイすることを目的とした、ここ数年の間に登場した。低精度量子化は、モデル推論のメモリ消費と計算コストを大幅に削減できる重要なモデル圧縮技術である。本研究では,小セットのキャリブレーションデータを用いてモデルを低ビット(8ビット未満)精度に量子化するptq(post-training quantization)アルゴリズムに注目し,これらを異なるtinymlユースケースでベンチマークする。公平な比較を実現するため,最近のPTQアルゴリズムを解析するためのシミュレーション量子化フレームワークを構築した。さらに、これらのアルゴリズムを必須コンポーネントに分解し、汎用的なPTQパイプラインを再組み立てする。パイプライン内の部品の異なる代替品に関するアブレーション研究により、低精度量子化を行う際の重要な設計選択を明らかにする。この研究が有用なデータポイントを提供し、将来低精度量子化の研究に光を当てることを願っている。

関連論文リスト

Automatic mixed precision for optimizing gained time with constrained loss mean-squared-error based on model partition to sequential sub-graphs [0.8999666725996975]
混合精度(MP)は、ネットワーク層間での数値的精度の変化によってトレードオフを緩和する。本研究では,PTQ(Post-Training Quantization)内の最適なMP構成を自動的に選択することに焦点を当てた。
論文参考訳（メタデータ） (2025-05-19T12:51:02Z)
FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文参考訳（メタデータ） (2025-04-28T12:47:23Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文参考訳（メタデータ） (2024-10-09T09:45:01Z)
ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。 8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文参考訳（メタデータ） (2024-07-05T15:10:05Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術であるラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文参考訳（メタデータ） (2023-09-29T15:49:54Z)
A didactic approach to quantum machine learning with a single qubit [68.8204255655161]
我々は、データ再ロード技術を用いて、単一のキュービットで学習するケースに焦点を当てる。我々は、Qiskit量子コンピューティングSDKを用いて、おもちゃと現実世界のデータセットに異なる定式化を実装した。
論文参考訳（メタデータ） (2022-11-23T18:25:32Z)
End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文参考訳（メタデータ） (2022-11-22T18:54:48Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
MQBench: Towards Reproducible and Deployable Model Quantization Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文参考訳（メタデータ） (2021-11-05T23:38:44Z)
VecQ: Minimal Loss DNN Model Compression With Vectorized Weight Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文参考訳（メタデータ） (2020-05-18T07:38:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。