論文の概要: SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs
- arxiv url: http://arxiv.org/abs/2302.07036v1
- Date: Tue, 14 Feb 2023 13:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:27:06.323837
- Title: SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs
- Title(参考訳): SCONNA: Integer-Quantized CNNの超高速エネルギー効率推論のための確率計算に基づく光加速器
- Authors: Sairam Sri Vatsavai, Venkata Sai Praneeth Karempudi, Ishan Thakkar,
Ahmad Salehi, and Todd Hastings
- Abstract要約: CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The acceleration of a CNN inference task uses convolution operations that are
typically transformed into vector-dot-product (VDP) operations. Several
photonic microring resonators (MRRs) based hardware architectures have been
proposed to accelerate integer-quantized CNNs with remarkably higher throughput
and energy efficiency compared to their electronic counterparts. However, the
existing photonic MRR-based analog accelerators exhibit a very strong trade-off
between the achievable input/weight precision and VDP operation size, which
severely restricts their achievable VDP operation size for the quantized
input/weight precision of 4 bits and higher. The restricted VDP operation size
ultimately suppresses computing throughput to severely diminish the achievable
performance benefits. To address this shortcoming, we for the first time
present a merger of stochastic computing and MRR-based CNN accelerators. To
leverage the innate precision flexibility of stochastic computing, we invent an
MRR-based optical stochastic multiplier (OSM). We employ multiple OSMs in a
cascaded manner using dense wavelength division multiplexing, to forge a novel
Stochastic Computing based Optical Neural Network Accelerator (SCONNA). SCONNA
achieves significantly high throughput and energy efficiency for accelerating
inferences of high-precision quantized CNNs. Our evaluation for the inference
of four modern CNNs at 8-bit input/weight precision indicates that SCONNA
provides improvements of up to 66.5x, 90x, and 91x in frames-per-second (FPS),
FPS/W and FPS/W/mm2, respectively, on average over two photonic MRR-based
analog CNN accelerators from prior work, with Top-1 accuracy drop of only up to
0.4% for large CNNs and up to 1.5% for small CNNs. We developed a
transaction-level, event-driven python-based simulator for the evaluation of
SCONNA and other accelerators (https://github.com/uky-UCAT/SC_ONN_SIM.git).
- Abstract(参考訳): CNN推論タスクの加速は、通常ベクトルドット積(VDP)演算に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器 (MRR) ベースのハードウェアアーキテクチャは、整数量子化CNNを電子回路に比べて非常に高いスループットとエネルギー効率で高速化するために提案されている。
しかし、既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP演算サイズとの間に非常に強いトレードオフを示し、4ビット以上の量子化された入力/重み付け精度に対して、達成可能なVDP演算サイズを著しく制限する。
制限されたVDP操作サイズは、最終的に計算スループットを抑え、達成可能なパフォーマンスのメリットを著しく低下させる。
この欠点に対処するため、我々は初めて確率計算とMRRベースのCNNアクセラレーターの融合を提示する。
確率計算の固有精度の柔軟性を活用するために,MRRベースの光確率乗算器(OSM)を開発した。
我々は、SCONNA(Stochastic Computing based Optical Neural Network Accelerator)を新たに構築するために、高密度波長分割多重化を用いて複数のOSMを用いる。
SCONNAは、高精度量子化されたCNNの推論を高速化するために、非常に高いスループットとエネルギー効率を達成する。
8ビットの入力/重みの精度で4つの現代のcnnを推定した結果、sconnaはフレーム毎秒(fps)、fps/w、fps/w/mm2で最大66.5x、90x、91xの改善を提供し、以前の作業では2つのフォトニックmrベースのアナログcnnアクセラレーターで、top-1の精度低下は最大0.4%、小型cnnでは1.5%であった。
我々は、SCONNAや他のアクセラレーター(https://github.com/uky-UCAT/SC_ONN_SIM.git)の評価のためのトランザクションレベル、イベント駆動型ピソンベースシミュレータを開発した。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - CNN Mixture-of-Depths [4.150676163661315]
畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD)
畳み込みニューラルネットワーク(CNN)のためのMixture-of-Depths(MoD)を紹介する。
論文 参考訳(メタデータ) (2024-09-25T15:19:04Z) - An Optical XNOR-Bitcount Based Accelerator for Efficient Inference of
Binary Neural Networks [0.0]
単一MRRを用いた光XNORゲート(OXG)を発明する
我々は光電荷蓄積器(PCA)と呼ばれるビットカウント回路の新規設計を提案する。
最新の4つのBNNを推定すると、OXBNNはFPS(F frames-per-second)とFPS/W(エネルギー効率)において最大62倍と7.6倍の改善を実現していることがわかる。
論文 参考訳(メタデータ) (2023-02-03T20:56:01Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA [0.0]
層単位での混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本稿では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
論文 参考訳(メタデータ) (2022-08-09T15:32:51Z) - Photonic Reconfigurable Accelerators for Efficient Inference of CNNs
with Mixed-Sized Tensors [0.22843885788439797]
光マイクロリング共振器(MRR)ベースのハードウェアアクセラレータは、破壊的なスピードアップとエネルギー効率の改善をもたらすことが示されている。
従来のMRRベースのCNNアクセラレータは、混合サイズのテンソルを持つCNNに対して、効率的な適応性を提供できない。
MRRベースのCNNアクセラレータに再構成性を導入する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-07-12T03:18:00Z) - Single-Shot Optical Neural Network [55.41644538483948]
深層ニューラルネットワークに必要な計算資源を削減するために,「重定常」アナログ光学・電子ハードウェアが提案されている。
我々は、スケーラブルで1層当たり単発の重み付き光学プロセッサを提案する。
論文 参考訳(メタデータ) (2022-05-18T17:49:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。