論文の概要: Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2602.23334v1
- Date: Thu, 26 Feb 2026 18:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.852083
- Title: Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators
- Title(参考訳): ハードウェアアクセラレータ上の実行時再構成可能なマルチ精度量子化乗算のためのビットワイズシストリックアレーアーキテクチャ
- Authors: Yuhao Liu, Salim Ullah, Akash Kumar,
- Abstract要約: 本稿では,QNNアクセラレータのための実行時再構成可能なマルチチャネル・ビットワイズ・シストリックアレイ設計を提案する。
その結果,混合精度モデルでは1.3185~3.5671倍の高速化が達成できた。
- 参考スコア(独自算出の注目度): 5.054252675478966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network accelerators have been widely applied to edge devices for complex tasks like object tracking, image recognition, etc. Previous works have explored the quantization technologies in related lightweight accelerator designs to reduce hardware resource consumption. However, low precision leads to high accuracy loss in inference. Therefore, mixed-precision quantization becomes an alternative solution by applying different precision in different layers to trade off resource consumption and accuracy. Because regular designs for multiplication on hardware cannot support the precision reconfiguration for a multi-precision Quantized Neural Network (QNN) model in runtime, we propose a runtime reconfigurable multi-precision multi-channel bitwise systolic array design for QNN accelerators. We have implemented and evaluated our work on the Ultra96 FPGA platform. Results show that our work can achieve 1.3185 to 3.5671 times speedup in inferring mixed-precision models and has less critical path delay, supporting a higher clock frequency (250MHz).
- Abstract(参考訳): ニューラルネットワークアクセラレータは、オブジェクト追跡や画像認識といった複雑なタスクのためにエッジデバイスに広く適用されています。
従来の研究は、ハードウェアリソースの消費を減らすために、関連する軽量加速器設計における量子化技術を探究してきた。
しかし、精度が低いと推論の精度が低下する。
そのため、異なる層に異なる精度を適用して資源消費と精度をトレードオフすることで、混合精度の量子化が代替ソリューションとなる。
ハードウェア上での乗算のための正規設計は、実行時にマルチ精度量子ニューラルネットワーク(QNN)モデルの精度再構成をサポートできないため、QNNアクセラレーターのための実行時再構成可能なマルチ精度マルチチャネル・ビットワイズ・シストリックアレイ設計を提案する。
我々はUltra96 FPGAプラットフォーム上での作業の実装と評価を行った。
その結果,混合精度モデルでは1.3185~3.5671倍の高速化が可能であり,クロック周波数(250MHz)が向上した。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。
本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文 参考訳(メタデータ) (2025-05-20T17:26:12Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - OMPQ: Orthogonal Mixed Precision Quantization [72.63889596498004]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。