論文の概要: Reconfigurable co-processor architecture with limited numerical
precision to accelerate deep convolutional neural networks
- arxiv url: http://arxiv.org/abs/2109.03040v1
- Date: Sat, 21 Aug 2021 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-12 10:54:46.271691
- Title: Reconfigurable co-processor architecture with limited numerical
precision to accelerate deep convolutional neural networks
- Title(参考訳): 深部畳み込みニューラルネットワークを高速化する数値精度に制限のある再構成可能なコプロセッサアーキテクチャ
- Authors: Sasindu Wijeratne, Sandaruwan Jayaweera, Mahesh Dananjaya, Ajith
Pasqual
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。
本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。
既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
- 参考スコア(独自算出の注目度): 0.38848561367220275
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Convolutional Neural Networks (CNNs) are widely used in deep learning
applications, e.g. visual systems, robotics etc. However, existing software
solutions are not efficient. Therefore, many hardware accelerators have been
proposed optimizing performance, power and resource utilization of the
implementation. Amongst existing solutions, Field Programmable Gate Array
(FPGA) based architecture provides better cost-energy-performance trade-offs as
well as scalability and minimizing development time. In this paper, we present
a model-independent reconfigurable co-processing architecture to accelerate
CNNs. Our architecture consists of parallel Multiply and Accumulate (MAC) units
with caching techniques and interconnection networks to exploit maximum data
parallelism. In contrast to existing solutions, we introduce limited precision
32 bit Q-format fixed point quantization for arithmetic representations and
operations. As a result, our architecture achieved significant reduction in
resource utilization with competitive accuracy. Furthermore, we developed an
assembly-type microinstructions to access the co-processing fabric to manage
layer-wise parallelism, thereby making re-use of limited resources. Finally, we
have tested our architecture up to 9x9 kernel size on Xilinx Virtex 7 FPGA,
achieving a throughput of up to 226.2 GOp/S for 3x3 kernel size.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。
しかし、既存のソフトウェアソリューションは効率的ではない。
そのため、多くのハードウェアアクセラレーターが実装の性能、パワー、資源利用を最適化する提案がなされている。
既存のソリューションの中で、FPGA(Field Programmable Gate Array)ベースのアーキテクチャは、スケーラビリティと開発時間の最小化とともに、より良いコスト-エネルギーパフォーマンスのトレードオフを提供します。
本稿では,CNNを高速化するモデル非依存の再構成可能コプロセッシングアーキテクチャを提案する。
我々のアーキテクチャは、最大データ並列性を利用するためのキャッシュ技術と相互接続ネットワークを備えた並列Multiply and Accumulate (MAC)ユニットで構成されている。
既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
その結果,我々のアーキテクチャは,競争精度で資源利用の大幅な削減を実現した。
さらに,協調処理ファブリックにアクセスして層間並列性を管理するアセンブリ型マイクロインストラクションを開発し,限られた資源を再利用した。
最後に、Xilinx Virtex 7 FPGA上で最大9x9のカーネルサイズをテストし、3x3カーネルサイズで最大226.2 GOp/Sのスループットを実現した。
関連論文リスト
- Towards Joint Optimization for DNN Architecture and Configuration for
Compute-In-Memory Hardware [6.768339581657319]
計算インメモリ(CiM)のための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。
提案するフレームワークは、サブネットワークの性能とCiMハードウェア構成選択の間の複雑な相互作用を理解することができる。
論文 参考訳(メタデータ) (2024-02-19T02:12:07Z) - OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - HAO: Hardware-aware neural Architecture Optimization for Efficient
Inference [25.265181492143107]
ニューラルネットワーク探索アルゴリズムの設計空間を縮小するための整数プログラミングアルゴリズムを開発する。
私たちのアルゴリズムは、フレームレート50でImageNetの72.5%のトップ-1精度を達成し、MnasNetよりも60%高速で、比較精度でFBNetよりも135%高速です。
論文 参考訳(メタデータ) (2021-04-26T17:59:29Z) - Towards Accurate and Compact Architectures via Neural Architecture
Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。
我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。
NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文 参考訳(メタデータ) (2021-02-20T09:38:10Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z) - ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for
Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。
DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。
我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。
14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文 参考訳(メタデータ) (2020-03-25T07:54:42Z) - Near-Optimal Hardware Design for Convolutional Neural Networks [0.0]
本研究では,畳み込みニューラルネットワークのための新しい,特殊目的,高効率ハードウェアアーキテクチャを提案する。
提案アーキテクチャは,モデルの計算フローと同じ構造を持つ計算回路を設計することにより,乗算器の利用を最大化する。
提案するハードウェアアーキテクチャに基づく実装が,商用AI製品に適用されている。
論文 参考訳(メタデータ) (2020-02-06T09:15:03Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。