論文の概要: Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models
- arxiv url: http://arxiv.org/abs/2311.04386v1
- Date: Tue, 7 Nov 2023 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:29:04.858072
- Title: Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models
- Title(参考訳): 分散メモリを用いたメニーコアプロセッサを用いたスパース・リカレントモデルの高速化
- Authors: Jan Finkbeiner, Thomas Gmeinder, Mark Pupilli, Alexander Titterton,
Emre Neftci
- Abstract要約: 現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
- 参考スコア(独自算出の注目度): 43.1773057439246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI training infrastructure is dominated by single instruction
multiple data (SIMD) and systolic array architectures, such as Graphics
Processing Units (GPUs) and Tensor Processing Units (TPUs), that excel at
accelerating parallel workloads and dense vector matrix multiplications.
Potentially more efficient neural network models utilizing sparsity and
recurrence cannot leverage the full power of SIMD processor and are thus at a
severe disadvantage compared to today's prominent parallel architectures like
Transformers and CNNs, thereby hindering the path towards more sustainable AI.
To overcome this limitation, we explore sparse and recurrent model training on
a massively parallel multiple instruction multiple data (MIMD) architecture
with distributed local memory. We implement a training routine based on
backpropagation through time (BPTT) for the brain-inspired class of Spiking
Neural Networks (SNNs) that feature binary sparse activations. We observe a
massive advantage in using sparse activation tensors with a MIMD processor, the
Intelligence Processing Unit (IPU) compared to GPUs. On training workloads, our
results demonstrate 5-10x throughput gains compared to A100 GPUs and up to 38x
gains for higher levels of activation sparsity, without a significant slowdown
in training convergence or reduction in final model performance. Furthermore,
our results show highly promising trends for both single and multi IPU
configurations as we scale up to larger model sizes. Our work paves the way
towards more efficient, non-standard models via AI training hardware beyond
GPUs, and competitive large scale SNN models.
- Abstract(参考訳): 現在のaiトレーニングインフラストラクチャは、シングルインストラクションマルチデータ(simd)と、gpu(graphics processing unit)やtpu(tensor processing units)といったシストリックアレイアーキテクチャによって支配されており、並列ワークロードの高速化や、高密度ベクトル行列の乗算に優れている。
潜在的にスパーシティと再帰性を活用したより効率的なニューラルネットワークモデルは、simdプロセッサのフルパワーを活用できないため、今日のトランスフォーマーやcnnのような著名な並列アーキテクチャに比べて重大なデメリットがあるため、より持続可能なaiへの道を妨げている。
この制限を克服するために、分散ローカルメモリを持つ超並列マルチ命令マルチデータ(mimd)アーキテクチャ上でのスパースおよびリカレントモデルトレーニングについて検討する。
本稿では,脳にインスパイアされたスパイキングニューラルネットワーク(SNN)のための,時間によるバックプロパゲーション(BPTT)に基づくトレーニングルーチンを実装した。
我々は,MIMDプロセッサを用いたスパースアクティベーションテンソル,インテリジェンス・プロセッシング・ユニット(IPU)において,GPUと比較して大きな優位性を示す。
トレーニングワークロードでは,A100 GPUと比較して5~10倍のスループット向上,高レベルのアクティベーションスパシティでは最大38倍のスループット向上を実現した。
さらに, モデルサイズが大きくなるにつれて, シングル IPU 構成とマルチ IPU 構成の両立が期待できる傾向を示した。
我々の研究は、GPUを超えるAIトレーニングハードウェアと競合する大規模SNNモデルを通じて、より効率的で非標準モデルへの道を開いた。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - MoESys: A Distributed and Efficient Mixture-of-Experts Training and Inference System for Internet Services [32.278096820269816]
大規模トレーニングと推論の両方において効率を高める新しいMoESysを提案する。
具体的には、トレーニング手順において、提案されたMoESysは、階層ストレージ上の2Dプリフェッチとフュージョン通信を備えたElastic MoEトレーニング戦略を採用する。
単一ノードでのスケーラブルな推論のために、MoESysはCPU-GPUメモリを、モデルをロードするセクションのリングに共同で構築し、効率的な推論のためにラウンドロビン方式でメモリセクション全体で計算タスクを実行する。
論文 参考訳(メタデータ) (2022-05-20T09:09:27Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。