論文の概要: QCore: Data-Efficient, On-Device Continual Calibration for Quantized Models -- Extended Version
- arxiv url: http://arxiv.org/abs/2404.13990v1
- Date: Mon, 22 Apr 2024 08:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 14:45:41.404906
- Title: QCore: Data-Efficient, On-Device Continual Calibration for Quantized Models -- Extended Version
- Title(参考訳): QCore: 量子化モデルのためのデータ効率の良いオンデバイス連続キャリブレーション - 拡張バージョン
- Authors: David Campos, Bin Yang, Tung Kieu, Miao Zhang, Chenjuan Guo, Christian S. Jensen,
- Abstract要約: 機械学習モデルは、ストレージと計算能力に制限のあるエッジデバイスにデプロイすることができる。
エッジ上で連続的なキャリブレーションを可能にするためのQCoreを提案する。
- 参考スコア(独自算出の注目度): 34.280197473547226
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We are witnessing an increasing availability of streaming data that may contain valuable information on the underlying processes. It is thus attractive to be able to deploy machine learning models on edge devices near sensors such that decisions can be made instantaneously, rather than first having to transmit incoming data to servers. To enable deployment on edge devices with limited storage and computational capabilities, the full-precision parameters in standard models can be quantized to use fewer bits. The resulting quantized models are then calibrated using back-propagation and full training data to ensure accuracy. This one-time calibration works for deployments in static environments. However, model deployment in dynamic edge environments call for continual calibration to adaptively adjust quantized models to fit new incoming data, which may have different distributions. The first difficulty in enabling continual calibration on the edge is that the full training data may be too large and thus not always available on edge devices. The second difficulty is that the use of back-propagation on the edge for repeated calibration is too expensive. We propose QCore to enable continual calibration on the edge. First, it compresses the full training data into a small subset to enable effective calibration of quantized models with different bit-widths. We also propose means of updating the subset when new streaming data arrives to reflect changes in the environment, while not forgetting earlier training data. Second, we propose a small bit-flipping network that works with the subset to update quantized model parameters, thus enabling efficient continual calibration without back-propagation. An experimental study, conducted with real-world data in a continual learning setting, offers insight into the properties of QCore and shows that it is capable of outperforming strong baseline methods.
- Abstract(参考訳): 私たちは、基盤となるプロセスに関する貴重な情報を含む可能性のあるストリーミングデータの増加を目撃しています。
したがって、最初に受信したデータをサーバに送信するのではなく、即座に決定を行うことができるように、センサーの近くのエッジデバイスに機械学習モデルをデプロイできることは魅力的である。
ストレージと計算能力に制限のあるエッジデバイスへのデプロイを可能にするため、標準モデルの完全精度パラメータを量子化してビット数を削減できる。
得られた量子化モデルは、正確性を確保するために、バックプロパゲーションとフルトレーニングデータを使用して校正される。
このワンタイムキャリブレーションは、静的環境のデプロイに有効である。
しかし、動的エッジ環境におけるモデル展開は、異なる分布を持つ可能性のある新しい入ってくるデータに適合するように、量子化されたモデルを適応的に調整するために連続的なキャリブレーションを要求する。
エッジ上で連続的なキャリブレーションを有効にする最初の難しさは、完全なトレーニングデータが大きすぎるため、エッジデバイスで常に利用できるとは限らないことである。
第2の難点は、繰り返しキャリブレーションにエッジにバックプロパゲーションを使用することが高価すぎることである。
エッジ上で連続的なキャリブレーションを可能にするためのQCoreを提案する。
まず、完全なトレーニングデータを小さなサブセットに圧縮し、異なるビット幅を持つ量子化モデルの効果的なキャリブレーションを可能にする。
また、既存のトレーニングデータを忘れずに、新しいストリーミングデータが到着して環境の変化を反映したサブセットを更新する方法を提案する。
第二に,サブセットと連携して量子化モデルパラメータを更新し,バックプロパゲーションを伴わない効率的な連続キャリブレーションを実現する小型ビットフリップネットワークを提案する。
実世界のデータを用いて連続的な学習環境で実験を行い、QCoreの特性に関する知見を提供し、強力なベースライン法より優れていることを示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Stepping Forward on the Last Mile [8.756033984943178]
本稿では,バックプロパゲーションと比較してメモリフットプリントと精度のギャップを低減させるアルゴリズムの一連の拡張を提案する。
その結果、エッジデバイス上でのモデルカスタマイズの最後のマイルでは、固定点前方勾配によるトレーニングが実現可能で実践的なアプローチであることが示されている。
論文 参考訳(メタデータ) (2024-11-06T16:33:21Z) - Self-calibration for Language Model Quantization and Pruning [38.00221764773372]
量子化とプルーニングはモデル圧縮の基本的なアプローチである。
トレーニング後の環境では、最先端の量子化とプルーニングの方法はキャリブレーションデータを必要とする。
自己校正を解決策として提案する。
論文 参考訳(メタデータ) (2024-10-22T16:50:00Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - ESD: Expected Squared Difference as a Tuning-Free Trainable Calibration
Measure [35.996971010199196]
期待される正方偏差(ESD)は、チューニング不要なトレーニング可能なキャリブレーション目標損失である。
従来の手法と比較して,ESDが最良の校正結果をもたらすことを示す。
ESDは、トレーニング中の校正に必要な計算コストを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-04T18:06:36Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Quantile Regularization: Towards Implicit Calibration of Regression
Models [30.872605139672086]
2つのCDF間の累積KL分散として定義される新しい量子正規化器に基づく回帰モデルの校正法を提案する。
提案手法は,Dropout VI や Deep Ensembles といった手法を用いて学習した回帰モデルのキャリブレーションを大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-02-28T16:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。