論文の概要: A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs
- arxiv url: http://arxiv.org/abs/2310.02654v1
- Date: Wed, 4 Oct 2023 08:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:01:20.540658
- Title: A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs
- Title(参考訳): リソース制約fpgaの時系列変圧器モデルにおける量子化アウェアトレーニングに関する研究
- Authors: Tianheng Ling, Chao Qian, Lukas Einhaus, Gregor Schiele
- Abstract要約: 本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
- 参考スコア(独自算出の注目度): 19.835810073852244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explores the quantisation-aware training (QAT) on time series
Transformer models. We propose a novel adaptive quantisation scheme that
dynamically selects between symmetric and asymmetric schemes during the QAT
phase. Our approach demonstrates that matching the quantisation scheme to the
real data distribution can reduce computational overhead while maintaining
acceptable precision. Moreover, our approach is robust when applied to
real-world data and mixed-precision quantisation, where most objects are
quantised to 4 bits. Our findings inform model quantisation and deployment
decisions while providing a foundation for advancing quantisation techniques.
- Abstract(参考訳): 本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
qat位相中に対称スキームと非対称スキームを動的に選択する適応量子化スキームを提案する。
提案手法は,量子化方式と実データ分布とのマッチングにより,許容精度を維持しつつ計算オーバーヘッドを低減できることを示す。
さらに、実世界のデータと混合精度の量子化に適用した場合、ほとんどのオブジェクトは4ビットに量子化される。
本研究は,量子化技術の発展のための基盤を提供しながら,モデル量子化と展開決定を通知する。
関連論文リスト
- TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - Scalable quantum dynamics compilation via quantum machine learning [7.31922231703204]
変分量子コンパイル(VQC)法は、高精度を維持しつつゲートコストを低減するために変分最適化を用いる。
1次元におけるシステムサイズと精度の両面で、我々のアプローチが最先端のコンパイル結果を上回ることが示されている(1$D)。
VQCを2次元(2次元)ストリップに準1次元処理で拡張し、標準的なトロッタライズ法よりも大きな資源優位性を示す。
論文 参考訳(メタデータ) (2024-09-24T18:00:00Z) - Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。
ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。
ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文 参考訳(メタデータ) (2024-02-27T17:36:01Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。