論文の概要: Tensor Slicing and Optimization for Multicore NPUs
- arxiv url: http://arxiv.org/abs/2304.03013v1
- Date: Thu, 6 Apr 2023 12:03:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:30:50.680740
- Title: Tensor Slicing and Optimization for Multicore NPUs
- Title(参考訳): マルチコアNPUのテンソルスライシングと最適化
- Authors: Rafael Sousa, Marcio Pereira, Yongin Kwon, Taeho Kim, Namsoon Jung,
Chang Soo Kim, Michael Frank, Guido Araujo
- Abstract要約: 本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
- 参考スコア(独自算出の注目度): 2.670309629218727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although code generation for Convolution Neural Network (CNN) models has been
extensively studied, performing efficient data slicing and parallelization for
highly-constrai\-ned Multicore Neural Processor Units (NPUs) is still a
challenging problem. Given the size of convolutions' input/output tensors and
the small footprint of NPU on-chip memories, minimizing memory transactions
while maximizing parallelism and MAC utilization are central to any effective
solution. This paper proposes a TensorFlow XLA/LLVM compiler optimization pass
for Multicore NPUs, called Tensor Slicing Optimization (TSO), which: (a)
maximizes convolution parallelism and memory usage across NPU cores; and (b)
reduces data transfers between host and NPU on-chip memories by using DRAM
memory burst time estimates to guide tensor slicing. To evaluate the proposed
approach, a set of experiments was performed using the NeuroMorphic Processor
(NMP), a multicore NPU containing 32 RISC-V cores extended with novel CNN
instructions. Experimental results show that TSO is capable of identifying the
best tensor slicing that minimizes execution time for a set of CNN models.
Speed-ups of up to 21.7\% result when comparing the TSO burst-based technique
to a no-burst data slicing approach. To validate the generality of the TSO
approach, the algorithm was also ported to the Glow Machine Learning framework.
The performance of the models were measured on both Glow and TensorFlow
XLA/LLVM compilers, revealing similar results.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)モデルのコード生成は広く研究されているが、高階調のマルチコアニューラルプロセッサユニット(NPU)の効率的なデータスライシングと並列化は依然として難しい問題である。
畳み込みのインプット/アウトプットテンソルのサイズとNPUオンチップメモリのフットプリントが小さいことを考えると、並列性とMAC利用を最大化しながらメモリトランザクションを最小化することは、有効なソリューションの中心である。
本稿では、TSO(Tensor Slicing Optimization)と呼ばれるマルチコアNPUに対するTensorFlow XLA/LLVMコンパイラ最適化パスを提案する。
(a)NPUコア間の畳み込み並列性とメモリ使用量の最大化
b) DRAMメモリバースト時間推定を用いて、ホストとNPUオンチップメモリ間のデータ転送を削減し、テンソルスライシングを誘導する。
提案手法を評価するために,新しいCNN命令で拡張された32個のRISC-Vコアを含むマルチコアNPUであるNeuroMorphic Processor (NMP)を用いて実験を行った。
実験の結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
TSOバーストベースの手法とノンバーストデータスライシング手法を比較すると、最大21.7\%のスピードアップが生じる。
TSOアプローチの汎用性を検証するため、アルゴリズムはGlow Machine Learningフレームワークにも移植された。
モデルのパフォーマンスはGlowとTensorFlow XLA/LLVMコンパイラの両方で測定され、同様の結果が示された。
関連論文リスト
- Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Latent Matrices for Tensor Network Decomposition and to Tensor
Completion [8.301418317685906]
テンソルを小さく分解し,アルゴリズムの計算を高速化する新しい高階テンソル分解モデルを提案する。
LMTN-PAM, LMTN-SVD, LMTN-ARの3つの最適化アルゴリズムを開発し, テンソル補完タスクに適用した。
実験の結果, LMTN-SVDアルゴリズムはFCTN-PAMアルゴリズムの3~6倍高速であり, 1.8ポイントの精度低下しか得られなかった。
論文 参考訳(メタデータ) (2022-10-07T08:19:50Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - I/O Lower Bounds for Auto-tuning of Convolutions in CNNs [2.571796445061562]
本研究では,複数のサブ計算からなる合成アルゴリズムの一般i/o下界理論を考案する。
我々は,データ再利用を十分に活用することにより,2つの主畳み込みアルゴリズムの近似i/o最適データフロー戦略を設計する。
実験結果から,自動チューニング方式によるデータフロー戦略は,cuDNNよりも平均約3.32倍の性能向上を達成できることがわかった。
論文 参考訳(メタデータ) (2020-12-31T15:46:01Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。