論文の概要: FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems
- arxiv url: http://arxiv.org/abs/2204.10943v1
- Date: Fri, 22 Apr 2022 21:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 14:50:39.212756
- Title: FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems
- Title(参考訳): スケーラブル分散AIトレーニングシステムのためのFPGAベースのAIスマートNIC
- Authors: Rui Ma, Evangelos Georganas, Alexander Heinecke, Andrew Boutros, Eriko
Nurvitadhi
- Abstract要約: 我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
- 参考スコア(独自算出の注目度): 62.20308752994373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapid advances in artificial intelligence (AI) technology have led to
significant accuracy improvements in a myriad of application domains at the
cost of larger and more compute-intensive models. Training such models on
massive amounts of data typically requires scaling to many compute nodes and
relies heavily on collective communication algorithms, such as all-reduce, to
exchange the weight gradients between different nodes. The overhead of these
collective communication operations in a distributed AI training system can
bottleneck its performance, with more pronounced effects as the number of nodes
increases. In this paper, we first characterize the all-reduce operation
overhead by profiling distributed AI training. Then, we propose a new smart
network interface card (NIC) for distributed AI training systems using
field-programmable gate arrays (FPGAs) to accelerate all-reduce operations and
optimize network bandwidth utilization via data compression. The AI smart NIC
frees up the system's compute resources to perform the more compute-intensive
tensor operations and increases the overall node-to-node communication
efficiency. We perform real measurements on a prototype distributed AI training
system comprised of 6 compute nodes to evaluate the performance gains of our
proposed FPGA-based AI smart NIC compared to a baseline system with regular
NICs. We also use these measurements to validate an analytical model that we
formulate to predict performance when scaling to larger systems. Our proposed
FPGA-based AI smart NIC enhances overall training performance by 1.6x at 6
nodes, with an estimated 2.5x performance improvement at 32 nodes, compared to
the baseline system using conventional NICs.
- Abstract(参考訳): 人工知能(AI)技術の急速な進歩は、より大規模で計算集約的なモデルによって、無数のアプリケーションドメインにおいて、大幅な精度向上をもたらした。
このようなモデルを大量のデータでトレーニングするには、通常、多くの計算ノードへのスケーリングが必要であり、異なるノード間の重み勾配を交換するために、all-reduceのような集合的通信アルゴリズムに大きく依存する。
分散AIトレーニングシステムにおけるこれらの集合的通信操作のオーバーヘッドは、ノード数が増加するにつれてより顕著な効果で、そのパフォーマンスをボトルネックにすることができる。
本稿では,分散AIトレーニングのプロファイリングにより,まず全リデューサ動作のオーバーヘッドを特徴付ける。
そこで我々は,フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案し,全リデューサ操作を高速化し,データ圧縮によるネットワーク帯域幅利用を最適化する。
AIスマートNICは、より計算集約的なテンソル操作を実行するためにシステムの計算リソースを解放し、ノード間通信の効率を全般的に向上させる。
提案するFPGAベースのAIスマートNICの性能向上を,通常のNICを用いたベースラインシステムと比較して評価するために,6つの計算ノードからなる分散AIトレーニングシステムを用いて実測を行った。
また,これらの測定値を用いて解析モデルを検証することにより,大規模システムへのスケーリング時のパフォーマンス予測を行う。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
関連論文リスト
- Expediting Distributed DNN Training with Device Topology-Aware Graph
Deployment [18.021259939659874]
TAGは、最適化されたDNNトレーニンググラフとそのデバイストポロジへのデプロイを導出する自動システムである。
既存のスキームと比較して最大4.56倍のトレーニングスピードアップを実現可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T06:30:24Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - N3H-Core: Neuron-designed Neural Network Accelerator via FPGA-based
Heterogeneous Computing Cores [26.38812379700231]
FPGAを用いたニューラルネットワーク高速化のための異種計算システムを開発した。
提案するアクセラレータは、DSPとLUTをベースとしたGEMM(GEneral Matrix-Multiplication)コンピューティングコアで構成されている。
我々の設計では、最新のMix&Match設計よりも遅延が1.12-1.32x削減され、推論精度が向上した。
論文 参考訳(メタデータ) (2021-12-15T15:12:00Z) - Learning Connectivity-Maximizing Network Configurations [123.01665966032014]
本稿では、専門家からコミュニケーションエージェントを配置することを学ぶ畳み込みニューラルネットワーク(CNN)を用いた教師あり学習手法を提案する。
我々は,標準ライントポロジやリングトポロジ,ランダムに生成された105万件のテストケース,トレーニング中に見えない大規模なチームについて,CNNのパフォーマンスを実証した。
トレーニング後,本システムは10~20名のエージェントの最適化手法よりも2桁高速な接続構成を生成する。
論文 参考訳(メタデータ) (2021-12-14T18:59:01Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - Fully-parallel Convolutional Neural Network Hardware [0.7829352305480285]
本稿では,ハードウェアにArticial Neural Networks(ANN)を実装するための,新しい電力・面積効率アーキテクチャを提案する。
LENET-5として完全に並列なCNNを1つのFPGAに埋め込んでテストするのが初めてである。
論文 参考訳(メタデータ) (2020-06-22T17:19:09Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - GraphACT: Accelerating GCN Training on CPU-FPGA Heterogeneous Platforms [1.2183405753834562]
グラフ畳み込みネットワーク(GCN)は、グラフ上での表現学習のための最先端のディープラーニングモデルとして登場した。
実質的かつ不規則なデータ通信のため、GCNの訓練を加速することは困難である。
我々はCPU-FPGAヘテロジニアスシステム上でGCNをトレーニングするための新しいアクセラレータを設計する。
論文 参考訳(メタデータ) (2019-12-31T21:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。