論文の概要: Resource-aware Mixed-precision Quantization for Enhancing Deployability of Transformers for Time-series Forecasting on Embedded FPGAs
- arxiv url: http://arxiv.org/abs/2410.03294v2
- Date: Wed, 30 Oct 2024 16:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:08:51.609135
- Title: Resource-aware Mixed-precision Quantization for Enhancing Deployability of Transformers for Time-series Forecasting on Embedded FPGAs
- Title(参考訳): 組み込みFPGAにおける時系列予測のための変圧器の展開性向上のための資源対応混合精度量子化
- Authors: Tianheng Ling, Chao Qian, Gregor Schiele,
- Abstract要約: 本研究では、資源制約付き組み込みFPGAにおける整数のみの量子化変換器の展開課題について述べる。
モデル層にまたがって中間結果を格納するための選択可能なリソースタイプを導入し、デプロイメントのボトルネックを突破する。
また、ハードウェアレベルの量子化戦略を研究者が探求できるような、リソース対応の混合精度量子化手法も開発している。
- 参考スコア(独自算出の注目度): 19.835810073852244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the deployment challenges of integer-only quantized Transformers on resource-constrained embedded FPGAs (Xilinx Spartan-7 XC7S15). We enhanced the flexibility of our VHDL template by introducing a selectable resource type for storing intermediate results across model layers, thereby breaking the deployment bottleneck by utilizing BRAM efficiently. Moreover, we developed a resource-aware mixed-precision quantization approach that enables researchers to explore hardware-level quantization strategies without requiring extensive expertise in Neural Architecture Search. This method provides accurate resource utilization estimates with a precision discrepancy as low as 3%, compared to actual deployment metrics. Compared to previous work, our approach has successfully facilitated the deployment of model configurations utilizing mixed-precision quantization, thus overcoming the limitations inherent in five previously non-deployable configurations with uniform quantization bitwidths. Consequently, this research enhances the applicability of Transformers in embedded systems, facilitating a broader range of Transformer-powered applications on edge devices.
- Abstract(参考訳): 本研究では、資源制約付き組み込みFPGA(Xilinx Spartan-7 XC7S15)における整数のみの量子化変換器の展開課題について述べる。
モデル層に中間結果を格納する選択可能なリソースタイプを導入することで,VHDLテンプレートの柔軟性を向上し,BRAMを効率的に活用することで,デプロイメントボトルネックを解消する。
さらに,ニューラルアーキテクチャサーチの専門知識を必要とせず,ハードウェアレベルの量子化戦略を研究できる資源対応型混合精度量子化手法を開発した。
本手法は,実際の展開指標と比較して,精度の低い3%の精度で正確な資源利用推定値を提供する。
提案手法は,従来の研究と比較して,混合精度量子化を用いたモデル構成の展開を成功させ,均一な量子化ビット幅を持つ5つの非デプロイ可能な構成に固有の制約を克服した。
その結果,組込みシステムにおけるTransformerの適用性が向上し,エッジデバイス上でのTransformerを利用した幅広いアプリケーションの実現が容易になった。
関連論文リスト
- RTF-Q: Efficient Unsupervised Domain Adaptation with Retraining-free Quantization [14.447148108341688]
ReTraining-Free Quantization (RTF-Q) を用いた効率的な非教師なし領域適応法を提案する。
提案手法では,計算コストの異なる低精度量子化アーキテクチャを用い,動的予算を持つデバイスに適用する。
提案するネットワークは,3つのベンチマークにおける最先端手法との競合精度を実証する。
論文 参考訳(メタデータ) (2024-08-11T11:53:29Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。
ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。
ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文 参考訳(メタデータ) (2024-02-27T17:36:01Z) - A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs [19.835810073852244]
本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:25:03Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。