論文の概要: FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems
- arxiv url: http://arxiv.org/abs/2204.10943v1
- Date: Fri, 22 Apr 2022 21:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:50:39.212756
- Title: FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems
- Title(参考訳): スケーラブル分散AIトレーニングシステムのためのFPGAベースのAIスマートNIC
- Authors: Rui Ma, Evangelos Georganas, Alexander Heinecke, Andrew Boutros, Eriko
Nurvitadhi
- Abstract要約: 我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
- 参考スコア(独自算出の注目度): 62.20308752994373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in artificial intelligence (AI) technology have led to
significant accuracy improvements in a myriad of application domains at the
cost of larger and more compute-intensive models. Training such models on
massive amounts of data typically requires scaling to many compute nodes and
relies heavily on collective communication algorithms, such as all-reduce, to
exchange the weight gradients between different nodes. The overhead of these
collective communication operations in a distributed AI training system can
bottleneck its performance, with more pronounced effects as the number of nodes
increases. In this paper, we first characterize the all-reduce operation
overhead by profiling distributed AI training. Then, we propose a new smart
network interface card (NIC) for distributed AI training systems using
field-programmable gate arrays (FPGAs) to accelerate all-reduce operations and
optimize network bandwidth utilization via data compression. The AI smart NIC
frees up the system's compute resources to perform the more compute-intensive
tensor operations and increases the overall node-to-node communication
efficiency. We perform real measurements on a prototype distributed AI training
system comprised of 6 compute nodes to evaluate the performance gains of our
proposed FPGA-based AI smart NIC compared to a baseline system with regular
NICs. We also use these measurements to validate an analytical model that we
formulate to predict performance when scaling to larger systems. Our proposed
FPGA-based AI smart NIC enhances overall training performance by 1.6x at 6
nodes, with an estimated 2.5x performance improvement at 32 nodes, compared to
the baseline system using conventional NICs.
- Abstract(参考訳): 人工知能(AI)技術の急速な進歩は、より大規模で計算集約的なモデルによって、無数のアプリケーションドメインにおいて、大幅な精度向上をもたらした。
このようなモデルを大量のデータでトレーニングするには、通常、多くの計算ノードへのスケーリングが必要であり、異なるノード間の重み勾配を交換するために、all-reduceのような集合的通信アルゴリズムに大きく依存する。
分散AIトレーニングシステムにおけるこれらの集合的通信操作のオーバーヘッドは、ノード数が増加するにつれてより顕著な効果で、そのパフォーマンスをボトルネックにすることができる。
本稿では,分散AIトレーニングのプロファイリングにより,まず全リデューサ動作のオーバーヘッドを特徴付ける。
そこで我々は,フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案し,全リデューサ操作を高速化し,データ圧縮によるネットワーク帯域幅利用を最適化する。
AIスマートNICは、より計算集約的なテンソル操作を実行するためにシステムの計算リソースを解放し、ノード間通信の効率を全般的に向上させる。
提案するFPGAベースのAIスマートNICの性能向上を,通常のNICを用いたベースラインシステムと比較して評価するために,6つの計算ノードからなる分散AIトレーニングシステムを用いて実測を行った。
また,これらの測定値を用いて解析モデルを検証することにより,大規模システムへのスケーリング時のパフォーマンス予測を行う。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Exploiting On-chip Heterogeneity of Versal Architecture for GNN
Inference Acceleration [0.5249805590164902]
グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析やバイオインフォマティクスなど、多くの機械学習(ML)アプリケーションに革命をもたらした。
我々は,AMD Versal ACAPアーキテクチャの不均一な計算能力を活用し,GNN推論を高速化する。
グラフ畳み込みネットワーク(GCN)では,同一のACAPデバイス上でのみPLを用いた設計と比較して3.9-96.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-08-04T23:57:55Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。
我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。
トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文 参考訳(メタデータ) (2021-12-14T18:59:01Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。