論文の概要: Photonic Reconfigurable Accelerators for Efficient Inference of CNNs
with Mixed-Sized Tensors
- arxiv url: http://arxiv.org/abs/2207.05278v1
- Date: Tue, 12 Jul 2022 03:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:02:15.622478
- Title: Photonic Reconfigurable Accelerators for Efficient Inference of CNNs
with Mixed-Sized Tensors
- Title(参考訳): 混合テンソルを用いたcnnの効率的な推定のためのフォトニック再構成型加速器
- Authors: Sairam Sri Vatsavai, Ishan G Thakkar
- Abstract要約: 光マイクロリング共振器(MRR)ベースのハードウェアアクセラレータは、破壊的なスピードアップとエネルギー効率の改善をもたらすことが示されている。
従来のMRRベースのCNNアクセラレータは、混合サイズのテンソルを持つCNNに対して、効率的な適応性を提供できない。
MRRベースのCNNアクセラレータに再構成性を導入する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 0.22843885788439797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Photonic Microring Resonator (MRR) based hardware accelerators have been
shown to provide disruptive speedup and energy-efficiency improvements for
processing deep Convolutional Neural Networks (CNNs). However, previous
MRR-based CNN accelerators fail to provide efficient adaptability for CNNs with
mixed-sized tensors. One example of such CNNs is depthwise separable CNNs.
Performing inferences of CNNs with mixed-sized tensors on such inflexible
accelerators often leads to low hardware utilization, which diminishes the
achievable performance and energy efficiency from the accelerators. In this
paper, we present a novel way of introducing reconfigurability in the MRR-based
CNN accelerators, to enable dynamic maximization of the size compatibility
between the accelerator hardware components and the CNN tensors that are
processed using the hardware components. We classify the state-of-the-art
MRR-based CNN accelerators from prior works into two categories, based on the
layout and relative placements of the utilized hardware components in the
accelerators. We then use our method to introduce reconfigurability in
accelerators from these two classes, to consequently improve their parallelism,
the flexibility of efficiently mapping tensors of different sizes, speed, and
overall energy efficiency. We evaluate our reconfigurable accelerators against
three prior works for the area proportionate outlook (equal hardware area for
all accelerators). Our evaluation for the inference of four modern CNNs
indicates that our designed reconfigurable CNN accelerators provide
improvements of up to 1.8x in Frames-Per-Second (FPS) and up to 1.5x in FPS/W,
compared to an MRR-based accelerator from prior work.
- Abstract(参考訳): フォトニックマイクロリング共振器(MRR)ベースのハードウェアアクセラレータは、深層畳み込みニューラルネットワーク(CNN)を処理するために破壊的なスピードアップとエネルギー効率の改善を提供する。
しかし、以前のMRRベースのCNNアクセラレーターは、混合サイズのテンソルを持つCNNに対して効率的な適応性を提供できない。
そのようなCNNの例としては、深く分離可能なCNNがある。
このような不屈な加速器に混合サイズのテンソルを用いたCNNの推論を行うと、ハードウェア利用率が低下し、加速器の性能とエネルギー効率が低下する。
本稿では,MRRをベースとしたCNNアクセラレータに再構成性を導入し,ハードウェアコンポーネントを用いて処理されるCNNテンソルとアクセルハードウェアコンポーネント間のサイズ互換性を動的に最大化する手法を提案する。
我々は,現在最先端のMRRベースのCNNアクセラレータを,アクセル内のハードウェアコンポーネントのレイアウトと相対配置に基づいて,先行研究から2つのカテゴリに分類する。
そこで本手法では,この2つのクラスから加速器に再構成可能性を導入することで,並列性,速度,エネルギー効率の異なるテンソルを効率的にマッピングする柔軟性を向上させる。
我々は,再構成可能なアクセラレーターを,各アクセラレーターのハードウェア領域に比例する領域の3つの先行研究と比較した。
4つの現代的なcnnの推論の評価から,設計した再構成可能なcnnアクセラレータはフレーム毎秒(fps)で最大1.8倍,fps/wで最大1.5倍の改善が得られた。
関連論文リスト
- Exploring Quantization and Mapping Synergy in Hardware-Aware Deep Neural Network Accelerators [0.20971479389679332]
CNN推論アクセラレータに実装された畳み込みニューラルネットワーク(CNN)のエネルギー効率とメモリフットプリントは多くの要因に依存する。
実装中にリッチな混合量子化スキームを有効にすることで、以前に隠れていたマッピングの空間を開放できることが示される。
量子化重みとアクティベーションと適切なマッピングを利用するCNNは、精度、エネルギ、メモリ要求間のトレードオフを大幅に改善することができる。
論文 参考訳(メタデータ) (2024-04-08T10:10:30Z) - OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - SCONNA: A Stochastic Computing Based Optical Accelerator for Ultra-Fast,
Energy-Efficient Inference of Integer-Quantized CNNs [0.0]
CNN推論タスクは、一般的にベクトルドット生成(VDP)操作に変換される畳み込み演算を使用する。
いくつかのフォトニックマイクロリング共振器(MRR)ベースのハードウェアアーキテクチャが整数量子化CNNを高速化するために提案されている。
既存のフォトニックMRRベースのアナログ加速器は、達成可能な入力/重み付け精度とVDP操作サイズとの間に非常に強いトレードオフを示す。
論文 参考訳(メタデータ) (2023-02-14T13:35:15Z) - EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network
Accelerators [12.223778147172107]
拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている
これらのカーネルは、その高いメモリ強度、エクサスケールな計算要求、大きなエネルギー消費のために、現在の計算システムを強調している。
拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるEcoFlowを提案する。
論文 参考訳(メタデータ) (2022-02-04T18:48:36Z) - unzipFPGA: Enhancing FPGA-based CNN Engines with On-the-Fly Weights
Generation [17.142094527372993]
singlevolution engineはfpgaベースの畳み込みニューラルネットワーク(cnns)の一般的な設計選択となっている。
本研究では,実行時の重みを減圧するプレコンステージを導入するモデル群に対して,cnnエンジンの設計が与える影響について検討する。
メモリバウンド層に対する帯域幅の制限による負の影響を最小限に抑えるため,重みのオンザフライ生成を可能にするハードウェアコンポーネントを提案する。
論文 参考訳(メタデータ) (2021-03-09T18:19:41Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。