論文の概要: Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2602.23334v1
- Date: Thu, 26 Feb 2026 18:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.852083
- Title: Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators
- Title(参考訳): ハードウェアアクセラレータ上の実行時再構成可能なマルチ精度量子化乗算のためのビットワイズシストリックアレーアーキテクチャ
- Authors: Yuhao Liu, Salim Ullah, Akash Kumar,
- Abstract要約: 本稿では,QNNアクセラレータのための実行時再構成可能なマルチチャネル・ビットワイズ・シストリックアレイ設計を提案する。
その結果,混合精度モデルでは1.3185~3.5671倍の高速化が達成できた。
- 参考スコア(独自算出の注目度): 5.054252675478966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network accelerators have been widely applied to edge devices for complex tasks like object tracking, image recognition, etc. Previous works have explored the quantization technologies in related lightweight accelerator designs to reduce hardware resource consumption. However, low precision leads to high accuracy loss in inference. Therefore, mixed-precision quantization becomes an alternative solution by applying different precision in different layers to trade off resource consumption and accuracy. Because regular designs for multiplication on hardware cannot support the precision reconfiguration for a multi-precision Quantized Neural Network (QNN) model in runtime, we propose a runtime reconfigurable multi-precision multi-channel bitwise systolic array design for QNN accelerators. We have implemented and evaluated our work on the Ultra96 FPGA platform. Results show that our work can achieve 1.3185 to 3.5671 times speedup in inferring mixed-precision models and has less critical path delay, supporting a higher clock frequency (250MHz).
- Abstract(参考訳): ニューラルネットワークアクセラレータは、オブジェクト追跡や画像認識といった複雑なタスクのためにエッジデバイスに広く適用されています。
従来の研究は、ハードウェアリソースの消費を減らすために、関連する軽量加速器設計における量子化技術を探究してきた。
しかし、精度が低いと推論の精度が低下する。
そのため、異なる層に異なる精度を適用して資源消費と精度をトレードオフすることで、混合精度の量子化が代替ソリューションとなる。
ハードウェア上での乗算のための正規設計は、実行時にマルチ精度量子ニューラルネットワーク(QNN)モデルの精度再構成をサポートできないため、QNNアクセラレーターのための実行時再構成可能なマルチ精度マルチチャネル・ビットワイズ・シストリックアレイ設計を提案する。
我々はUltra96 FPGAプラットフォーム上での作業の実装と評価を行った。
その結果,混合精度モデルでは1.3185~3.5671倍の高速化が可能であり,クロック周波数(250MHz)が向上した。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - OMPQ: Orthogonal Mixed Precision Quantization [72.63889596498004]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。