論文の概要: Highly Available Data Parallel ML training on Mesh Networks
- arxiv url: http://arxiv.org/abs/2011.03605v1
- Date: Fri, 6 Nov 2020 21:36:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:44:34.195495
- Title: Highly Available Data Parallel ML training on Mesh Networks
- Title(参考訳): メッシュネットワーク上での高可用性データ並列MLトレーニング
- Authors: Sameer Kumar and Norm Jouppi
- Abstract要約: メッシュネットワークでは、障害がメッシュに穴をあけるため、これは難しい。
故障したチップを2次元メッシュ上で全トラフィックをルーティングする手法を提案する。
- 参考スコア(独自算出の注目度): 0.34265828682659694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data parallel ML models can take several days or weeks to train on several
accelerators. The long duration of training relies on the cluster of resources
to be available for the job to keep running for the entire duration. On a mesh
network this is challenging because failures will create holes in the mesh.
Packets must be routed around the failed chips for full connectivity. In this
paper, we present techniques to route gradient summation allreduce traffic
around failed chips on 2-D meshes. We evaluate performance of our fault
tolerant allreduce techniques via the MLPerf-v0.7 ResNet-50 and BERT
benchmarks. Performance results show minimal impact to training throughput on
512 and 1024 TPU-v3 chips.
- Abstract(参考訳): データ並列MLモデルは、複数のアクセラレーターでトレーニングするのに数日または数週間かかる。
長時間のトレーニングは、ジョブが実行し続けるために利用可能なリソースのクラスタに依存します。
メッシュネットワークでは、障害がメッシュに穴をあけるため、これは困難です。
パケットは、完全な接続のために失敗したチップの周りでルーティングされなければならない。
本稿では,2次元メッシュ上での故障チップまわりのトラフィックを再現する手法を提案する。
MLPerf-v0.7 ResNet-50およびBERTベンチマークを用いて,耐故障性アレーダ手法の性能を評価する。
512チップと1024TPU-v3チップのトレーニングスループットへの影響は最小限である。
関連論文リスト
- Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - Harnessing Manycore Processors with Distributed Memory for Accelerated
Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。
分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文 参考訳(メタデータ) (2023-11-07T23:18:35Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Parallelizing Legendre Memory Unit Training [5.076419064097734]
新しいリカレントニューラルネットワーク(RNN)であるLegendre Memory Unit(LMU)が提案され、いくつかのベンチマークデータセットで最先端のパフォーマンスを実現することが示されている。
ここでは、LMUの線形時間不変(LTI)メモリコンポーネントを活用して、トレーニング中に並列化可能な簡易な変種を構築する。
並列化を支援するこの変換は、リカレントコンポーネントが線形であるディープネットワークに一般的に適用できるため、最大200倍の高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2021-02-22T23:43:47Z) - Exploring the limits of Concurrency in ML Training on Google TPUs [12.165692382950713]
我々は、4096 TPU-v3チップを備えたメッシュであるGoogle Multipodでモデルをスケールする手法を提案する。
Google TPU-v3 Multipod マシンの 4erf モデルでは,16秒から28秒間のトレーニング時間を記録できる。
論文 参考訳(メタデータ) (2020-11-07T00:18:43Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。
理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:39Z) - Pipelined Training with Stale Weights of Deep Convolutional Neural
Networks [0.1921787217122713]
パイプライン化バックプロパゲーション方式の統計的効率と性能に及ぼす固定重みの影響について検討する。
パイプライニングがネットワークの初期の層に限られている場合、固定重み付きトレーニングが収束し、同じ精度のモデルが得られることを示す。
本稿では,パイプライン型と非パイプライン型を併用したハイブリッドスキームを提案する。
論文 参考訳(メタデータ) (2019-12-29T15:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。