論文の概要: Pathways: Asynchronous Distributed Dataflow for ML
- arxiv url: http://arxiv.org/abs/2203.12533v1
- Date: Wed, 23 Mar 2022 16:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 18:46:34.885330
- Title: Pathways: Asynchronous Distributed Dataflow for ML
- Title(参考訳): Pathways: MLのための非同期分散データフロー
- Authors: Paul Barham and Aakanksha Chowdhery and Jeff Dean and Sanjay Ghemawat
and Steven Hand and Dan Hurt and Michael Isard and Hyeontaek Lim and Ruoming
Pang and Sudip Roy and Brennan Saeta and Parker Schuh and Ryan Sepassi and
Laurent El Shafey and Chandramohan A. Thekkath and Yonghui Wu
- Abstract要約: 本稿では,加速器用大規模オーケストレーション層の設計について述べる。
私たちのシステムであるPathwaysは、新しいシステムやML研究のアイデアを探索できるように明示的に設計されています。
- 参考スコア(独自算出の注目度): 24.940220376358457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the design of a new large scale orchestration layer for
accelerators. Our system, Pathways, is explicitly designed to enable
exploration of new systems and ML research ideas, while retaining state of the
art performance for current models. Pathways uses a sharded dataflow graph of
asynchronous operators that consume and produce futures, and efficiently
gang-schedules heterogeneous parallel computations on thousands of accelerators
while coordinating data transfers over their dedicated interconnects. Pathways
makes use of a novel asynchronous distributed dataflow design that lets the
control plane execute in parallel despite dependencies in the data plane. This
design, with careful engineering, allows Pathways to adopt a single-controller
model that makes it easier to express complex new parallelism patterns. We
demonstrate that Pathways can achieve performance parity (~100% accelerator
utilization) with state-of-the-art systems when running SPMD computations over
2048 TPUs, while also delivering throughput comparable to the SPMD case for
Transformer models that are pipelined across 16 stages, or sharded across two
islands of accelerators connected over a data center network.
- Abstract(参考訳): 本稿では,加速器用大規模オーケストレーション層の設計について述べる。
当社のシステムであるPathwaysは,現行モデルにおけるアートパフォーマンスの状態を保ちながら,新しいシステムやML研究のアイデアの探索を可能にするように設計されている。
pathsは、未来を消費し、生成する非同期オペレータのシャードデータフローグラフを使用し、数千のアクセラレータ上で並列並列計算を効率的にギャングスケジューリングし、専用のインターコネクト上でのデータ転送をコーディネートする。
pathsは、新しい非同期分散データフロー設計を使用して、データプレーンの依存関係に関わらず、コントロールプレーンを並列に実行する。
この設計は、注意深いエンジニアリングで、Pathwaysは複雑な新しい並列処理パターンを簡単に表現できるシングルコントローラモデルを採用することができる。
我々は,2048 TPU上でSPMD計算を行う場合,Pathwaysが性能の同等性(約100%のアクセラレータ利用)を実現すると同時に,データセンタネットワーク上で接続された2つのアクセラレーターの島間でパイプラインされたトランスフォーマーモデルのSPMDケースに匹敵するスループットを実現することを実証した。
関連論文リスト
- Pipeline Gradient-based Model Training on Analog In-memory Accelerators [27.7426132507863]
インメモリAIMCアクセラレータは、エネルギー効率のよい方法で大規模なディープニューラルモデル(DNN)のトレーニングを加速することができる。
我々は、デジタルドメインのパイプラインにインスパイアされたAIMCアクセラレーターに対して、同期および非同期パイプライン並列性を提案する。
本稿では、サンプリングとクロックサイクルの複雑さの観点から、同期パイプラインと非同期パイプラインの両方に理論的収束を保証する。
論文 参考訳(メタデータ) (2024-10-19T16:58:34Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ALERT-Transformer: Bridging Asynchronous and Synchronous Machine Learning for Real-Time Event-based Spatio-Temporal Data [8.660721666999718]
非同期センシングと同期処理を組み合わせたハイブリッドパイプラインを提案する。
競争相手よりもレイテンシの低い最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-02T13:17:19Z) - FPTN: Fast Pure Transformer Network for Traffic Flow Forecasting [6.485778915696199]
交通流データに複雑な相関関係があるため,交通流の予測は困難である。
既存のTransformerベースの手法は、時系列予測(MTS)としてトラフィックフロー予測を扱う。
本稿では,FPTN(Fast Pure Transformer Network)を提案する。
論文 参考訳(メタデータ) (2023-03-14T07:55:50Z) - STLGRU: Spatio-Temporal Lightweight Graph GRU for Traffic Flow
Prediction [0.40964539027092917]
本稿では,交通流を正確に予測する新しい交通予測モデルSTLGRUを提案する。
提案するSTLGRUは,交通ネットワークの局所的・大域的空間的関係を効果的に捉えることができる。
提案手法は,最先端の性能を達成するだけでなく,計算効率の競争力も発揮できる。
論文 参考訳(メタデータ) (2022-12-08T20:24:59Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Adaptive Machine Learning for Time-Varying Systems: Low Dimensional
Latent Space Tuning [91.3755431537592]
本稿では,時間変化システムを対象とした適応機械学習手法を提案する。
我々は,エンコーダデコーダCNNのエンコーダ部出力において,非常に高次元(N>100k)の入力を低次元(N2)潜在空間にマッピングする。
そこで本手法では,割り込みを伴わないフィードバックに基づいて,内部の相関関係を学習し,その進化をリアルタイムで追跡する。
論文 参考訳(メタデータ) (2021-07-13T16:05:28Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Prediction of Traffic Flow via Connected Vehicles [77.11902188162458]
本稿では,交通機関が交通の流れを早期に制御し,渋滞を防止するための短期交通流予測フレームワークを提案する。
我々は,過去の流れデータと,コネクテッド・ビークル(CV)技術によって提供されるリアルタイムフィードや軌道データといった革新的な特徴に基づいて,将来の道路セグメントにおける流れを予測する。
本手法は, 流れの予測, CVが軌道に沿ったセグメントに現実的に遭遇する様々な事象の影響を組み込むことによって, 高度なモデリングを可能にすることを示す。
論文 参考訳(メタデータ) (2020-07-10T16:00:44Z) - Taurus: A Data Plane Architecture for Per-Packet ML [59.1343317736213]
本稿では,線数推論のためのデータプレーンであるTaurusの設計と実装について述べる。
Taurus スイッチ ASIC の評価は,Taurus がサーバベースコントロールプレーンよりも桁違いに高速に動作することを示す。
論文 参考訳(メタデータ) (2020-02-12T09:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。