Fugu-MT 論文翻訳(概要): Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems

論文の概要: Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems

arxiv url: http://arxiv.org/abs/2002.05814v2
Date: Tue, 28 Sep 2021 04:49:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-01 13:57:26.774502
Title: Hoplite: Efficient and Fault-Tolerant Collective Communication for Task-Based Distributed Systems
Title（参考訳）: Hoplite:タスクベースの分散システムのための効率的かつフォールトトレラントな集合通信
Authors: Siyuan Zhuang, Zhuohan Li, Danyang Zhuo, Stephanie Wang, Eric Liang, Robert Nishihara, Philipp Moritz, Ion Stoica
Abstract要約: 我々は,タスクベースの分散システムのための,効率的かつフォールトトレラントな集合通信層であるHopliteを設計,実装する。我々のキーとなる技術は、データ転送スケジュールを高速に計算し、きめ細かいパイプライニングによって効率的にスケジュールを実行することである。 Hopliteが非同期降下、勾配強化学習を高速化し、機械学習モデルのアンサンブルを提供することを示す。
参考スコア（独自算出の注目度）: 26.636634559594395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Task-based distributed frameworks (e.g., Ray, Dask, Hydro) have become increasingly popular for distributed applications that contain asynchronous and dynamic workloads, including asynchronous gradient descent, reinforcement learning, and model serving. As more data-intensive applications move to run on top of task-based systems, collective communication efficiency has become an important problem. Unfortunately, traditional collective communication libraries (e.g., MPI, Horovod, NCCL) are an ill fit, because they require the communication schedule to be known before runtime and they do not provide fault tolerance. We design and implement Hoplite, an efficient and fault-tolerant collective communication layer for task-based distributed systems. Our key technique is to compute data transfer schedules on the fly and execute the schedules efficiently through fine-grained pipelining. At the same time, when a task fails, the data transfer schedule adapts quickly to allow other tasks to keep making progress. We apply Hoplite to a popular task-based distributed framework, Ray. We show that Hoplite speeds up asynchronous stochastic gradient descent, reinforcement learning, and serving an ensemble of machine learning models that are difficult to execute efficiently with traditional collective communication by up to 7.8x, 3.9x, and 3.3x, respectively.
Abstract（参考訳）: タスクベースの分散フレームワーク(Ray、Dask、Hydroなど)は、非同期勾配降下、強化学習、モデルサービスを含む非同期および動的ワークロードを含む分散アプリケーションで、ますます人気が高まっている。データ集約型アプリケーションがタスクベースのシステム上で動くようになるにつれ、集合的なコミュニケーション効率が重要な問題となっている。残念ながら、従来の集合通信ライブラリ(MPI、Horovod、NCCLなど)は、実行前に通信スケジュールを知る必要があり、フォールトトレランスを提供しないため、不適合である。我々は,タスクベースの分散システムのための,効率的かつフォールトトレラントな集合通信層であるHopliteを設計,実装する。我々のキーとなる技術は、データ転送スケジュールを高速に計算し、きめ細かいパイプライニングによって効率的にスケジュールを実行することである。同時に、タスクが失敗した場合、データ転送スケジュールは迅速に適応し、他のタスクが進捗を続けるようにします。我々は、人気のあるタスクベースの分散フレームワークであるrayにhopliteを適用する。ホップライトは非同期確率勾配降下、強化学習を高速化し、従来の集団通信では実行が困難な機械学習モデルのアンサンブルを最大7.8倍、3.9倍、3.3倍に高速化することを示した。

関連論文リスト

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文参考訳（メタデータ） (2024-07-08T19:34:39Z)
GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2024-01-29T19:06:08Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文参考訳（メタデータ） (2023-03-02T17:32:11Z)
Hierarchical Over-the-Air FedGradNorm [50.756991828015316]
MTL(Multi-task Learning)は、単一の共有ネットワークで複数の関連するタスクを同時に学習する学習パラダイムである。我々は,HOTA-FedGradNormと呼ばれる動的重み付け戦略を用いた階層的オーバー・ザ・エア(HOTA)PFLを提案する。
論文参考訳（メタデータ） (2022-12-14T18:54:46Z)
Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。 FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2022-12-14T17:33:01Z)
Asynchronous Hierarchical Federated Learning [10.332084068006345]
大量のサーバトラフィック、長い収束期間、信頼できない精度の問題を解決するために、非同期階層型フェデレーション学習を提案する。特別な集約装置を選択して階層的な学習を可能にし、サーバの負担を大幅に軽減することができる。 CIFAR-10画像分類タスクにおける提案アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2022-05-31T18:42:29Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Sparse-Push: Communication- & Energy-Efficient Decentralized Distributed Learning over Directed & Time-Varying Graphs with non-IID Datasets [2.518955020930418]
Sparse-Pushはコミュニケーション効率の高い分散型トレーニングアルゴリズムである。提案アルゴリズムは,通信性能がわずか1%の466倍の低減を実現する。非IIDデータセットのケースにおいて,通信圧縮が性能を著しく低下させることを示す。
論文参考訳（メタデータ） (2021-02-10T19:41:11Z)
Distributed Primal-Dual Optimization for Online Multi-Task Learning [22.45069527817333]
本稿では,対数学習におけるタスク固有のノイズを捕捉し,実行時効率でプロジェクションフリーな更新を行う適応的原始双対アルゴリズムを提案する。我々のモデルは、エネルギー不足や帯域制限のあるタスクが更新を延期できるようにするため、分散型の周期接続タスクに適しています。実験結果から,提案モデルが実世界の様々なデータセットに対して極めて有効であることが確認された。
論文参考訳（メタデータ） (2020-04-02T23:36:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。