論文の概要: Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures
- arxiv url: http://arxiv.org/abs/2005.04680v1
- Date: Sun, 10 May 2020 14:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 02:18:27.018998
- Title: Optimizing Deep Learning Recommender Systems' Training On CPU Cluster
Architectures
- Title(参考訳): cpuクラスタアーキテクチャにおけるディープラーニングレコメンダシステムのトレーニングの最適化
- Authors: Dhiraj Kalamkar, Evangelos Georganas, Sudarshan Srinivasan, Jianping
Chen, Mikhail Shiryaev, Alexander Heinecke
- Abstract要約: クラウドコンピューティングセンターのAIサイクルの大部分を占めるRecommender Systemsに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、パフォーマンスの2桁以上の改善を達成できます。
- 参考スコア(独自算出の注目度): 56.69373580921888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: During the last two years, the goal of many researchers has been to squeeze
the last bit of performance out of HPC system for AI tasks. Often this
discussion is held in the context of how fast ResNet50 can be trained.
Unfortunately, ResNet50 is no longer a representative workload in 2020. Thus,
we focus on Recommender Systems which account for most of the AI cycles in
cloud computing centers. More specifically, we focus on Facebook's DLRM
benchmark. By enabling it to run on latest CPU hardware and software tailored
for HPC, we are able to achieve more than two-orders of magnitude improvement
in performance (110x) on a single socket compared to the reference CPU
implementation, and high scaling efficiency up to 64 sockets, while fitting
ultra-large datasets. This paper discusses the optimization techniques for the
various operators in DLRM and which component of the systems are stressed by
these different operators. The presented techniques are applicable to a broader
set of DL workloads that pose the same scaling challenges/characteristics as
DLRM.
- Abstract(参考訳): 過去2年間、多くの研究者の目標は、AIタスクのためのHPCシステムにおける最後のパフォーマンスを絞ることだった。
多くの場合、この議論はResNet50のトレーニングの速さという文脈で行われます。
残念ながら、2020年のResNet50はもはや代表的なワークロードではない。
したがって、クラウドコンピューティングセンターにおけるAIサイクルの大部分を占めるRecommender Systemsに焦点を当てる。
具体的には、FacebookのDLRMベンチマークに注目します。
HPC用に調整された最新のCPUハードウェアとソフトウェア上で動作可能にすることで、単一のソケット上で、参照CPU実装と比較して2桁以上のパフォーマンス改善(110倍)を達成でき、超大規模なデータセットを適合させながら、64ソケットまでのスケーリング効率を向上できる。
本稿では,DLRMにおける各種演算子の最適化手法について述べる。
提案したテクニックは、DLRMと同じスケーリング課題/特性を示す、より広範なDLワークロードのセットに適用できる。
関連論文リスト
- Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文 参考訳(メタデータ) (2023-12-11T05:25:01Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。