論文の概要: Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural
Network Acceleration
- arxiv url: http://arxiv.org/abs/2108.02569v1
- Date: Sun, 1 Aug 2021 23:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-07 04:23:24.306811
- Title: Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural
Network Acceleration
- Title(参考訳): 深層ニューラルネットワークのためのメッシュ型nocにおけるデータストリーミングとトラヒック収集
- Authors: Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang
- Abstract要約: 本稿では,1対多のトラフィックを高速化するために,一方/双方向のストリーミングバスを備えたメッシュアーキテクチャを提案する。
畳み込みレイヤのランタイムレイテンシの解析は、双方向ストリーミングアーキテクチャが一方的なストリーミングアーキテクチャよりも改善されていることを示している。
- 参考スコア(独自算出の注目度): 7.455546102930911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing popularity of deep neural network (DNN) applications demands
high computing power and efficient hardware accelerator architecture. DNN
accelerators use a large number of processing elements (PEs) and on-chip memory
for storing weights and other parameters. As the communication backbone of a
DNN accelerator, networks-on-chip (NoC) play an important role in supporting
various dataflow patterns and enabling processing with communication
parallelism in a DNN accelerator. However, the widely used mesh-based NoC
architectures inherently cannot support the efficient one-to-many and
many-to-one traffic largely existing in DNN workloads. In this paper, we
propose a modified mesh architecture with a one-way/two-way streaming bus to
speedup one-to-many (multicast) traffic, and the use of gather packets to
support many-to-one (gather) traffic. The analysis of the runtime latency of a
convolutional layer shows that the two-way streaming architecture achieves
better improvement than the one-way streaming architecture for an Output
Stationary (OS) dataflow architecture. The simulation results demonstrate that
the gather packets can help to reduce the runtime latency up to 1.8 times and
network power consumption up to 1.7 times, compared with the repetitive unicast
method on modified mesh architectures supporting two-way streaming.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)アプリケーションの人気が高まっているため、高いコンピューティング能力と効率的なハードウェアアクセラレーターアーキテクチャが要求される。
dnnアクセラレータは、重みやその他のパラメータを格納するために多数の処理要素(pe)とオンチップメモリを使用する。
DNNアクセラレーターの通信バックボーンとして、ネットワークオンチップ(NoC)は様々なデータフローパターンをサポートし、DNNアクセラレーターにおける通信並列処理を可能にする上で重要な役割を果たす。
しかし、広く使用されているメッシュベースのNoCアーキテクチャは本質的には、DNNワークロードに多く存在する効率的な1対1のトラフィックをサポートできない。
本稿では,1対1(マルチキャスト)トラフィックを高速化する1対2のストリーミングバスと,多対1(ガザ)トラフィックをサポートするために収集パケットを使用するメッシュアーキテクチャを提案する。
畳み込み層のランタイムレイテンシの解析により、双方向ストリーミングアーキテクチャは、出力定常(os)データフローアーキテクチャの片方向ストリーミングアーキテクチャよりも優れた改善を達成できることが示された。
シミュレーション結果は,2方向ストリーミングをサポートする修正メッシュアーキテクチャの繰り返しユニキャスト法と比較して,収集パケットがランタイム遅延を最大1.8倍,ネットワーク消費電力を最大1.7倍削減できることを示した。
関連論文リスト
- Towards Joint Optimization for DNN Architecture and Configuration for
Compute-In-Memory Hardware [6.768339581657319]
計算インメモリ(CiM)のための最適なサブネットワークとハードウェア構成を共同で検索するフレームワークであるCiMNetを提案する。
提案するフレームワークは、サブネットワークの性能とCiMハードウェア構成選択の間の複雑な相互作用を理解することができる。
論文 参考訳(メタデータ) (2024-02-19T02:12:07Z) - Core interface optimization for multi-core neuromorphic processors [5.391889175209394]
スパイキングニューラルネットワーク(SNN)は、低消費電力と低レイテンシを必要とするアプリケーションのエッジコンピューティングに対する有望なアプローチである。
大規模かつスケーラブルなSNNを実現するためには,効率的な非同期通信およびルーティングファブリックを開発する必要がある。
論文 参考訳(メタデータ) (2023-08-08T10:00:14Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [89.23404108080585]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - MAF-GNN: Multi-adaptive Spatiotemporal-flow Graph Neural Network for
Traffic Speed Forecasting [3.614768552081925]
交通速度予測のためのマルチ適応時空間フローグラフニューラルネットワーク(MAF-GNN)を提案する。
MAF-GNNは、トラフィックノード間の複数の遅延空間依存性をキャプチャする、効果的なマルチアダプティブ・アジャシエイト・マトリクス機構を導入している。
パブリックトラフィックネットワークの2つの実世界のデータセットであるMETR-LAとPeMS-Bayでは、他のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-08-08T09:06:43Z) - Improving the Performance of a NoC-based CNN Accelerator with Gather
Support [6.824747267214373]
ディープラーニング技術は、CNNのための効率的な並列コンピューティングアーキテクチャの必要性を促進する。
CNNのワークロードには1対1のトラフィックと1対1のトラフィックに加えて、多対1のトラフィックが導入されている。
本稿では,メッシュベースのNoCにおいて,複数対1のトラフィックをサポートするために,出力定常シストリックアレイを用いて収集パケットを利用することを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:33:40Z) - S2Engine: A Novel Systolic Architecture for Sparse Convolutional Neural
Networks [5.417507302691321]
S2Engineは圧縮されたデータを内部で送信し、各処理要素が圧縮されたデータフローから整列したデータを畳み込みで動的に選択できるようにする。
単純なシストリックアレイと比較すると、S2Engine は約3.2times$と約3.0times$のスピードとエネルギー効率の改善を実現している。
論文 参考訳(メタデータ) (2021-06-15T06:08:37Z) - Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph
Convolutional Networks [110.80088437391379]
SMARTと呼ばれるグラフベースのフレームワークが提案され、大規模な地理的領域にわたるV2I通信遅延の統計をモデル化し、追跡する。
深層Q-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構築型手法を開発する。
その結果,提案手法は,モデル化の精度と効率と,大規模車両ネットワークにおける遅延性能を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-03-13T06:56:29Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。