論文の概要: Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models
- arxiv url: http://arxiv.org/abs/2311.04386v1
- Date: Tue, 7 Nov 2023 23:18:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:29:04.858072
- Title: Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models
- Title(参考訳): 分散メモリを用いたメニーコアプロセッサを用いたスパース・リカレントモデルの高速化
- Authors: Jan Finkbeiner, Thomas Gmeinder, Mark Pupilli, Alexander Titterton,
Emre Neftci
- Abstract要約: 現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
- 参考スコア(独自算出の注目度): 43.1773057439246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI training infrastructure is dominated by single instruction
multiple data (SIMD) and systolic array architectures, such as Graphics
Processing Units (GPUs) and Tensor Processing Units (TPUs), that excel at
accelerating parallel workloads and dense vector matrix multiplications.
Potentially more efficient neural network models utilizing sparsity and
recurrence cannot leverage the full power of SIMD processor and are thus at a
severe disadvantage compared to today's prominent parallel architectures like
Transformers and CNNs, thereby hindering the path towards more sustainable AI.
To overcome this limitation, we explore sparse and recurrent model training on
a massively parallel multiple instruction multiple data (MIMD) architecture
with distributed local memory. We implement a training routine based on
backpropagation through time (BPTT) for the brain-inspired class of Spiking
Neural Networks (SNNs) that feature binary sparse activations. We observe a
massive advantage in using sparse activation tensors with a MIMD processor, the
Intelligence Processing Unit (IPU) compared to GPUs. On training workloads, our
results demonstrate 5-10x throughput gains compared to A100 GPUs and up to 38x
gains for higher levels of activation sparsity, without a significant slowdown
in training convergence or reduction in final model performance. Furthermore,
our results show highly promising trends for both single and multi IPU
configurations as we scale up to larger model sizes. Our work paves the way
towards more efficient, non-standard models via AI training hardware beyond
GPUs, and competitive large scale SNN models.
- Abstract(参考訳): 現在のaiトレーニングインフラストラクチャは、シングルインストラクションマルチデータ(simd)と、gpu(graphics processing unit)やtpu(tensor processing units)といったシストリックアレイアーキテクチャによって支配されており、並列ワークロードの高速化や、高密度ベクトル行列の乗算に優れている。
潜在的にスパーシティと再帰性を活用したより効率的なニューラルネットワークモデルは、simdプロセッサのフルパワーを活用できないため、今日のトランスフォーマーやcnnのような著名な並列アーキテクチャに比べて重大なデメリットがあるため、より持続可能なaiへの道を妨げている。
この制限を克服するために、分散ローカルメモリを持つ超並列マルチ命令マルチデータ(mimd)アーキテクチャ上でのスパースおよびリカレントモデルトレーニングについて検討する。
本稿では,脳にインスパイアされたスパイキングニューラルネットワーク(SNN)のための,時間によるバックプロパゲーション(BPTT)に基づくトレーニングルーチンを実装した。
我々は,MIMDプロセッサを用いたスパースアクティベーションテンソル,インテリジェンス・プロセッシング・ユニット(IPU)において,GPUと比較して大きな優位性を示す。
トレーニングワークロードでは,A100 GPUと比較して5~10倍のスループット向上,高レベルのアクティベーションスパシティでは最大38倍のスループット向上を実現した。
さらに, モデルサイズが大きくなるにつれて, シングル IPU 構成とマルチ IPU 構成の両立が期待できる傾向を示した。
我々の研究は、GPUを超えるAIトレーニングハードウェアと競合する大規模SNNモデルを通じて、より効率的で非標準モデルへの道を開いた。
関連論文リスト
- Tricking AI chips into Simulating the Human Brain: A Detailed
Performance Analysis [0.5354801701968198]
脳シミュレーションでは、複数の最先端AIチップ(Graphcore IPU、GroqChip、劣悪なCoreを持つNvidia GPU、Google TPU)を評価した。
性能解析の結果,シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応していることがわかった。
GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。
論文 参考訳(メタデータ) (2023-01-31T13:51:37Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Benchmarking GPU and TPU Performance with Graph Neural Networks [0.0]
この研究は、現実のパターン認識問題を解決するために開発されたグラフニューラルネットワーク(GNN)を用いてGPUとTPUのパフォーマンストレーニングを分析し、比較する。
スパースデータに作用する新しいモデルのクラスを特徴付けることは、ディープラーニングライブラリや将来のAIアクセラレータの設計を最適化するのに有効である。
論文 参考訳(メタデータ) (2022-10-21T21:03:40Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Hydra: A System for Large Multi-Model Deep Learning [3.571623412954477]
本稿では,トランスフォーマーやCNNといったモデルを対象として,DRAMとGPUメモリ間のレイヤ群を移動させる手法である'model spilling'を提案する。
次に,マルチモデルトレーニングワークロードの効率を上げるために,こぼれを利用した新しいテクニックのセットを提案する。
実際のベンチマークワークロードによる実験によると、HYDRAは通常のモデル並列処理よりも7倍高速で、パイプライン並列処理のための最先端の産業ツールよりも50%高速である。
論文 参考訳(メタデータ) (2021-10-16T18:13:57Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Efficient Algorithms for Device Placement of DNN Graph Operators [12.871398348743591]
現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。
複雑なモデルを実行するデバイスは、CPUに加えて、ハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが盛んになるにつれて、ますます異質になりつつある。
近年の研究では、モデルの並列性、すなわちニューラルネットワークの計算グラフを複数のデバイスに分割することで、大きな利益が得られることが示されている。
本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。
論文 参考訳(メタデータ) (2020-06-29T22:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。