論文の概要: Learning In Chaos: Efficient Autoscaling and Self-Healing for Multi-Party Distributed Training
- arxiv url: http://arxiv.org/abs/2505.12815v2
- Date: Sat, 13 Sep 2025 18:39:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.145927
- Title: Learning In Chaos: Efficient Autoscaling and Self-Healing for Multi-Party Distributed Training
- Title(参考訳): Chaosでの学習: 多人数分散トレーニングのための効率的な自動スケーリングと自己修復
- Authors: Wenjiao Feng, Rongxing Xiao, Zonghang Li, Hongfang Yu, Gang Sun, Long Luo, Mohsen Guizani, Qirong Ho, Steve Liu,
- Abstract要約: 本稿では,自己修復と自動スケーリングを備えた多人数分散トレーニングシステムChaosを提案する。
マルチ隣状態レプリケーションとモデルシャーディングによって自動スケーリングを高速化する。
実験によると、ChaosはPolllux、Elan、Autoscalingよりもスケールアウト遅延が大幅に低く、20ms以内のスケールイン、接続リンク、切断リンクイベントを処理する。
- 参考スコア(独自算出の注目度): 37.89808132152135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Node and link churn in multi-party, cross-region clusters over wide-area networks (WANs) often disrupts distributed training. However, checkpoint-based recovery and cloud-centric autoscaling react slowly and assume centralized control, which is misaligned with the self-governed setup where institutions can freely join and leave. This paper proposes Chaos, a multi-party distributed training system with self-healing and autoscaling, enabling robust and elastic training under churn. It speeds up autoscaling via multi-neighbor state replication and model sharding. We formalize the sharding and assignment as a MINLP that captures WAN heterogeneity, and reduce it to a tractable MILP by analyzing its monotonicity on a divisibility chain. By establishing an equivalence, we derive a greedy algorithm that follows optimality rules and yields the optimal solution in polynomial time. Chaos uses a cluster monitor to track resource and topology changes, and handles scaling events through peer negotiation protocols, enabling fully self-governed autoscaling among institutions. Experiments show that Chaos has substantially lower scale-out delay than Pollux, Elan, and Autoscaling, and handles scale-in, connect-link, and disconnect-link events within 20ms. It also delivers the lowest idle time, showing superior resource use and scalability as the cluster grows.
- Abstract(参考訳): 広域ネットワーク(WAN)上のマルチパーティ、クロスリージョンクラスタにおけるノードとリンクのチャーンは、分散トレーニングを中断することが多い。
しかし、チェックポイントベースのリカバリとクラウド中心のオートスケーリングはゆっくりと反応し、中央集権的な制御を前提とします。
本稿では,自己修復と自動スケーリングを備えたマルチパーティ分散トレーニングシステムChaosを提案する。
マルチ隣状態レプリケーションとモデルシャーディングによって自動スケーリングを高速化する。
我々は、WANの不均一性を捕捉するMINLPとしてシャーディングと割り当てを形式化し、可視鎖上の単調性を分析することにより、トラクタブルMILPに還元する。
等価性を確立することにより、最適性規則に従って多項式時間で最適解を得る欲求アルゴリズムを導出する。
Chaosはクラスタモニタを使用して、リソースとトポロジの変更を追跡し、ピアネゴシエーションプロトコルを通じてイベントのスケーリングを処理する。
実験によると、ChaosはPolllux、Elan、Autoscalingよりもスケールアウト遅延が大幅に低く、20ms以内のスケールイン、接続リンク、切断リンクイベントを処理する。
また、最低のアイドルタイムを提供し、クラスタが成長するにつれて、優れたリソース使用とスケーラビリティを示す。
関連論文リスト
- PreRoutGNN for Timing Prediction with Order Preserving Partition: Global
Circuit Pre-training, Local Delay Learning and Attentional Cell Modeling [84.34811206119619]
本稿では,事前のタイミング予測に対する2段階のアプローチを提案する。
まず、回路網リストからグローバルグラフ埋め込みを学習するグラフオートエンコーダを事前学習するためのグローバル回路トレーニングを提案する。
第2に、GCN上のメッセージパッシングのための新しいノード更新方式を、学習したグラフ埋め込みと回路グラフのトポロジ的ソートシーケンスに従って使用する。
21個の実世界の回路の実験では、スラック予測のための新しいSOTA R2が0.93で達成され、以前のSOTA法では0.59をはるかに上回っている。
論文 参考訳(メタデータ) (2024-02-27T02:23:07Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Learning a Consensus Sub-Network with Polarization Regularization and One Pass Training [2.895034191799291]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10, CIFAR-100, Tiny Imagenet で得られた結果から, ディープネットワークにおける接続の50%を, 1%の分類精度で除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - Asynchronous Hierarchical Federated Learning [10.332084068006345]
大量のサーバトラフィック、長い収束期間、信頼できない精度の問題を解決するために、非同期階層型フェデレーション学習を提案する。
特別な集約装置を選択して階層的な学習を可能にし、サーバの負担を大幅に軽減することができる。
CIFAR-10画像分類タスクにおける提案アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2022-05-31T18:42:29Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - CrossoverScheduler: Overlapping Multiple Distributed Training
Applications in a Crossover Manner [10.152968714099558]
本稿では,分散トレーニングアプリケーションの通信サイクルを他のアプリケーションで満たすアルゴリズムであるcrossoverschedulerを提案する。
さまざまな分散タスクの実験から、CrossoverSchedulerはImageNetデータセット上の画像分類タスクの20%のスピードアップを実現している。
論文 参考訳(メタデータ) (2021-03-14T17:01:15Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Online Deep Clustering for Unsupervised Representation Learning [108.33534231219464]
オンラインディープクラスタリング(ODC)は、交互にではなく、クラスタリングとネットワーク更新を同時に実行する。
我々は,2つの動的メモリモジュール,すなわち,サンプルラベルと特徴を格納するサンプルメモリと,セントロイド進化のためのセントロイドメモリを設計,維持する。
このように、ラベルとネットワークは交互にではなく肩から肩へと進化する。
論文 参考訳(メタデータ) (2020-06-18T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。