論文の概要: PoTAcc: A Pipeline for End-to-End Acceleration of Power-of-Two Quantized DNNs
- arxiv url: http://arxiv.org/abs/2605.06082v1
- Date: Thu, 07 May 2026 12:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.74811
- Title: PoTAcc: A Pipeline for End-to-End Acceleration of Power-of-Two Quantized DNNs
- Title(参考訳): PoTAcc:2つの量子化DNNのエンドツーエンド高速化のためのパイプライン
- Authors: Rappy Saha, Jude Haris, Nicolas Bohm Agostini, David Kaeli, José Cano,
- Abstract要約: パワーオブツー(PoT)量子化はディープニューラルネットワーク(DNN)のサイズを大幅に削減する
PoTAccはリソース制約のあるエッジデバイス上でのPoT量子化DNNの高速化と評価のためのエンドツーエンドパイプラインである。
- 参考スコア(独自算出の注目度): 1.4700230330706334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Power-of-two (PoT) quantization significantly reduces the size of deep neural networks (DNNs) and replaces multiplications with bit-shift operations for inference. Prior work has shown that PoT-quantized DNNs can preserve accuracy for tasks such as image classification; however, their performance on resource-constrained edge devices remains insufficiently understood. While general-purpose edge CPUs and GPUs do not provide optimized backends for bit-shift operations, custom hardware accelerators can better exploit PoT quantization by implementing dedicated shift-based processing elements. However, deploying PoT-quantized models on such accelerators is challenging due to limited support in existing inference frameworks. In addition, the impact of different PoT quantization strategies on hardware design, performance, and energy efficiency during full inference has not been systematically explored. To address these challenges, we propose PoTAcc, an open-source end-to-end pipeline for accelerating and evaluating PoT-quantized DNNs on resource-constrained edge devices. PoTAcc enables seamless preparation and deployment of PoT-quantized models via TensorFlow Lite (TFLite) across heterogeneous platforms, including CPU-only systems and hybrid CPU-FPGA systems with custom accelerators. We design shift-based processing element (shift-PE) accelerators for three PoT quantization methods and implement them on two FPGA platforms. We evaluate accuracy, performance, energy efficiency, and resource utilization across a range of models, including CNNs and Transformer-based architectures. Results show that our CPU-accelerator design achieves up to 3.6x speedup and 78% energy reduction compared to CPU-only execution for PoT-quantized DNNs on PYNQ-Z2 and Kria boards. The code will be publicly released at https://github.com/gicLAB/PoTAcc
- Abstract(参考訳): パワーオブツー(PoT)量子化はディープニューラルネットワーク(DNN)のサイズを大幅に削減し、乗算を推論のためのビットシフト操作に置き換える。
以前の研究では、PoT量子化されたDNNは画像分類などのタスクの精度を維持することができることが示されているが、リソース制約されたエッジデバイス上でのパフォーマンスは、まだ十分に理解されていない。
汎用エッジCPUとGPUはビットシフト操作に最適化されたバックエンドを提供していないが、カスタムハードウェアアクセラレータは専用のシフトベースの処理要素を実装することで、PoT量子化をよりうまく活用することができる。
しかし、これらのアクセラレーターにPoT量子化モデルをデプロイするのは、既存の推論フレームワークが限定的にサポートされているため、難しい。
さらに, ハードウェア設計, 性能, エネルギー効率に対する異なるPoT量子化戦略の影響についても, 体系的に検討されていない。
これらの課題に対処するため,リソース制約エッジデバイス上でのPoT量子化DNNの高速化と評価を目的とした,オープンソースのエンドツーエンドパイプラインであるPoTAccを提案する。
PoTAccは、CPUのみのシステムやカスタムアクセラレータを備えたハイブリッドCPU-FPGAシステムを含む、異種プラットフォームにまたがるTensorFlow Lite(TFLite)を介して、PoT量子化モデルのシームレスな準備とデプロイを可能にする。
シフトベース処理素子(シフト-PE)を3つのPoT量子化法で設計し、2つのFPGAプラットフォーム上で実装する。
我々は,CNN や Transformer ベースのアーキテクチャを含む,さまざまなモデルの精度,性能,エネルギー効率,資源利用量を評価する。
その結果,PYNQ-Z2基板およびKria基板上でのPoT量子化DNNのCPUのみの実行と比較して,CPUアクセラレータ設計は最大3.6倍の高速化と78%のエネルギー削減を実現した。
コードはhttps://github.com/gicLAB/PoTAccで公開される。
関連論文リスト
- Evolutionary Mapping of Neural Networks to Spatial Accelerators [64.13809409887254]
ニューロモルフィック加速器のための最初の進化的ハードウェア・イン・ザ・ループマッピングフレームワークを紹介する。
我々は,2次元メッシュに152コアを配置した空間加速器であるIntel Loihi 2のアプローチを評価した。
提案手法は,2つのスパース多層パーセプトロンネットワーク上でのデフォルトコアと比較して,最大35%のレイテンシ削減を実現している。
論文 参考訳(メタデータ) (2026-02-04T16:28:08Z) - Accelerating PoT Quantization on Edge Devices [0.9558392439655012]
パワー・オブ・ツー(PoT)量子化のような一様でない量子化は、一様量子化よりもデータ分布によく一致する。
エッジデバイス上でPoT量子化されたDeep Neural Networkを高速化するための既存のパイプラインは、オープンソースではない。
本稿では,リソース制約のあるエッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のための,オープンソースのパイプラインであるPoTAccを提案する。
論文 参考訳(メタデータ) (2024-09-30T15:33:47Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。