論文の概要: GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2602.22352v1
- Date: Wed, 25 Feb 2026 19:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.386794
- Title: GRAU: Generic Reconfigurable Activation Unit Design for Neural Network Hardware Accelerators
- Title(参考訳): GRAU: ニューラルネットワークハードウェアアクセラレータのためのジェネリック再構成可能なアクティベーションユニット設計
- Authors: Yuhao Liu, Salim Ullah, Akash Kumar,
- Abstract要約: マルチスレッドアクティベーションハードウェアはnビット出力に2nしきい値を必要とするため、精度が向上するにつれてハードウェアコストが急上昇する。
分割線形フィッティングに基づく再構成可能なアクティベーションハードウェア GRAU を提案する。
マルチスレッドアクティベータと比較すると、GRAUはLUT使用量を90%以上削減し、高いハードウェア効率、柔軟性、スケーラビリティを実現している。
- 参考スコア(独自算出の注目度): 5.054252675478966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous growth of neural network scales, low-precision quantization is widely used in edge accelerators. Classic multi-threshold activation hardware requires 2^n thresholds for n-bit outputs, causing a rapid increase in hardware cost as precision increases. We propose a reconfigurable activation hardware, GRAU, based on piecewise linear fitting, where the segment slopes are approximated by powers of two. Our design requires only basic comparators and 1-bit right shifters, supporting mixed-precision quantization and nonlinear functions such as SiLU. Compared with multi-threshold activators, GRAU reduces LUT consumption by over 90%, achieving higher hardware efficiency, flexibility, and scalability.
- Abstract(参考訳): ニューラルネットワークスケールの継続的な成長により、エッジアクセラレーターで低精度量子化が広く使われている。
古典的マルチスレッドアクティベーションハードウェアは、nビット出力に対して2^nしきい値を必要とするため、精度が向上するにつれてハードウェアコストが急上昇する。
分割線形フィッティングに基づく再構成可能なアクティベーションハードウェア GRAU を提案する。
我々の設計では、基本コンパレータと1ビット右シフタしか必要とせず、混合精度量子化とSiLUのような非線形関数をサポートする。
マルチスレッドアクティベータと比較すると、GRAUはLUT使用量を90%以上削減し、高いハードウェア効率、柔軟性、スケーラビリティを実現している。
関連論文リスト
- Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators [5.054252675478966]
本稿では,QNNアクセラレータのための実行時再構成可能なマルチチャネル・ビットワイズ・シストリックアレイ設計を提案する。
その結果,混合精度モデルでは1.3185~3.5671倍の高速化が達成できた。
論文 参考訳(メタデータ) (2026-02-26T18:40:02Z) - Dynamic Range Reduction via Branch-and-Bound [1.0141085397402314]
ハードウェアアクセラレーターを強化するための主要な戦略は、算術演算における精度の低下である。
本稿ではQUBO問題における精度向上のための完全原理分岐境界アルゴリズムを提案する。
実験は、実際の量子アニール上でのアルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-17T03:07:56Z) - Enabling On-device Continual Learning with Binary Neural Networks [3.180732240499359]
連続学習(CL)とバイナリニューラルネットワーク(BNN)の分野における最近の進歩を組み合わせたソリューションを提案する。
具体的には,2値の潜在リプレイアクティベーションと,勾配計算に必要なビット数を大幅に削減する新しい量子化方式を利用する。
論文 参考訳(メタデータ) (2024-01-18T11:57:05Z) - Energy Efficient Hardware Acceleration of Neural Networks with
Power-of-Two Quantisation [0.0]
我々は、Zynq UltraScale + MPSoC ZCU104 FPGA上に実装されたPoT重みを持つハードウェアニューラルネットワークアクセラレーターが、均一量子化バージョンよりも少なくとも1.4x$のエネルギー効率を持つことを示す。
論文 参考訳(メタデータ) (2022-09-30T06:33:40Z) - LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy
Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。
LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文 参考訳(メタデータ) (2022-09-28T12:55:35Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。