論文の概要: Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural
Network Acceleration
- arxiv url: http://arxiv.org/abs/2108.02569v1
- Date: Sun, 1 Aug 2021 23:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-07 04:23:24.306811
- Title: Data Streaming and Traffic Gathering in Mesh-based NoC for Deep Neural
Network Acceleration
- Title(参考訳): 深層ニューラルネットワークのためのメッシュ型nocにおけるデータストリーミングとトラヒック収集
- Authors: Binayak Tiwari, Mei Yang, Xiaohang Wang, Yingtao Jiang
- Abstract要約: 本稿では,1対多のトラフィックを高速化するために,一方/双方向のストリーミングバスを備えたメッシュアーキテクチャを提案する。
畳み込みレイヤのランタイムレイテンシの解析は、双方向ストリーミングアーキテクチャが一方的なストリーミングアーキテクチャよりも改善されていることを示している。
- 参考スコア(独自算出の注目度): 7.455546102930911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing popularity of deep neural network (DNN) applications demands
high computing power and efficient hardware accelerator architecture. DNN
accelerators use a large number of processing elements (PEs) and on-chip memory
for storing weights and other parameters. As the communication backbone of a
DNN accelerator, networks-on-chip (NoC) play an important role in supporting
various dataflow patterns and enabling processing with communication
parallelism in a DNN accelerator. However, the widely used mesh-based NoC
architectures inherently cannot support the efficient one-to-many and
many-to-one traffic largely existing in DNN workloads. In this paper, we
propose a modified mesh architecture with a one-way/two-way streaming bus to
speedup one-to-many (multicast) traffic, and the use of gather packets to
support many-to-one (gather) traffic. The analysis of the runtime latency of a
convolutional layer shows that the two-way streaming architecture achieves
better improvement than the one-way streaming architecture for an Output
Stationary (OS) dataflow architecture. The simulation results demonstrate that
the gather packets can help to reduce the runtime latency up to 1.8 times and
network power consumption up to 1.7 times, compared with the repetitive unicast
method on modified mesh architectures supporting two-way streaming.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)アプリケーションの人気が高まっているため、高いコンピューティング能力と効率的なハードウェアアクセラレーターアーキテクチャが要求される。
dnnアクセラレータは、重みやその他のパラメータを格納するために多数の処理要素(pe)とオンチップメモリを使用する。
DNNアクセラレーターの通信バックボーンとして、ネットワークオンチップ(NoC)は様々なデータフローパターンをサポートし、DNNアクセラレーターにおける通信並列処理を可能にする上で重要な役割を果たす。
しかし、広く使用されているメッシュベースのNoCアーキテクチャは本質的には、DNNワークロードに多く存在する効率的な1対1のトラフィックをサポートできない。
本稿では,1対1(マルチキャスト)トラフィックを高速化する1対2のストリーミングバスと,多対1(ガザ)トラフィックをサポートするために収集パケットを使用するメッシュアーキテクチャを提案する。
畳み込み層のランタイムレイテンシの解析により、双方向ストリーミングアーキテクチャは、出力定常(os)データフローアーキテクチャの片方向ストリーミングアーキテクチャよりも優れた改善を達成できることが示された。
シミュレーション結果は,2方向ストリーミングをサポートする修正メッシュアーキテクチャの繰り返しユニキャスト法と比較して,収集パケットがランタイム遅延を最大1.8倍,ネットワーク消費電力を最大1.7倍削減できることを示した。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - HYDRA: Hybrid Data Multiplexing and Run-time Layer Configurable DNN Accelerator [0.0]
本稿では,FMA(Fused-Multiply-Accumulate)を改良した単一層の実行において,単一のアクティベーション関数を再利用した層多重化手法を提案する。
提案したアーキテクチャは、電力消費と資源利用の改善の90%以上を35.21 TOPSWで達成している。
論文 参考訳(メタデータ) (2024-09-08T05:10:02Z) - TrIM: Triangular Input Movement Systolic Array for Convolutional Neural Networks -- Part II: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Core interface optimization for multi-core neuromorphic processors [5.391889175209394]
スパイキングニューラルネットワーク(SNN)は、低消費電力と低レイテンシを必要とするアプリケーションのエッジコンピューティングに対する有望なアプローチである。
大規模かつスケーラブルなSNNを実現するためには,効率的な非同期通信およびルーティングファブリックを開発する必要がある。
論文 参考訳(メタデータ) (2023-08-08T10:00:14Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Improving the Performance of a NoC-based CNN Accelerator with Gather
Support [6.824747267214373]
ディープラーニング技術は、CNNのための効率的な並列コンピューティングアーキテクチャの必要性を促進する。
CNNのワークロードには1対1のトラフィックと1対1のトラフィックに加えて、多対1のトラフィックが導入されている。
本稿では,メッシュベースのNoCにおいて,複数対1のトラフィックをサポートするために,出力定常シストリックアレイを用いて収集パケットを利用することを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:33:40Z) - Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph
Convolutional Networks [110.80088437391379]
SMARTと呼ばれるグラフベースのフレームワークが提案され、大規模な地理的領域にわたるV2I通信遅延の統計をモデル化し、追跡する。
深層Q-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構築型手法を開発する。
その結果,提案手法は,モデル化の精度と効率と,大規模車両ネットワークにおける遅延性能を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-03-13T06:56:29Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。