論文の概要: Learning in Chaos: Efficient Autoscaling and Self-healing for Distributed Training at the Edge
- arxiv url: http://arxiv.org/abs/2505.12815v1
- Date: Mon, 19 May 2025 07:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.473576
- Title: Learning in Chaos: Efficient Autoscaling and Self-healing for Distributed Training at the Edge
- Title(参考訳): Chaosでの学習: エッジでの分散トレーニングのための効率的な自動スケーリングと自己修復
- Authors: Wenjiao Feng, Rongxing Xiao, Zonghang Li, Hongfang Yu, Gang Sun, Long Luo, Mohsen Guizani, Qirong Ho,
- Abstract要約: 本稿では,自己修復と自動スケーリングを組み込んだレジリエントでスケーラブルなエッジ分散トレーニングシステムChaosを提案する。
高速なシャードスケジューリングを備えたマルチ隣のレプリケーションを使用することでスケールアウトを高速化し、新しいノードが近くの隣人から最新のトレーニング状態を並列に取得できるようにする。
カオスは、Polllux、EDL、Autoscalingよりもずっと低いスケールアウト遅延を実現し、1ミリ秒以内にスケールイン、接続リンク、切断リンクイベントを処理する。
- 参考スコア(独自算出の注目度): 38.97884101751293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frequent node and link changes in edge AI clusters disrupt distributed training, while traditional checkpoint-based recovery and cloud-centric autoscaling are too slow for scale-out and ill-suited to chaotic and self-governed edge. This paper proposes Chaos, a resilient and scalable edge distributed training system with built-in self-healing and autoscaling. It speeds up scale-out by using multi-neighbor replication with fast shard scheduling, allowing a new node to pull the latest training state from nearby neighbors in parallel while balancing the traffic load between them. It also uses a cluster monitor to track resource and topology changes to assist scheduler decisions, and handles scaling events through peer negotiation protocols, enabling fully self-governed autoscaling without a central admin. Extensive experiments show that Chaos consistently achieves much lower scale-out delays than Pollux, EDL, and Autoscaling, and handles scale-in, connect-link, and disconnect-link events within 1 millisecond, making it smoother to handle node joins, exits, and failures. It also delivers the lowest idle time, showing superior resource use and scalability as the cluster grows.
- Abstract(参考訳): エッジAIクラスタのノードとリンクの頻繁な変更は、分散トレーニングを妨害する一方で、従来のチェックポイントベースのリカバリとクラウド中心のオートスケーリングは、スケールアウトにはあまりにも遅く、カオス的かつ自己統治的なエッジに適している。
本稿では,自己修復と自動スケーリングを組み込んだレジリエントでスケーラブルなエッジ分散トレーニングシステムChaosを提案する。
高速なシャードスケジューリングを備えたマルチ隣のレプリケーションを使用することでスケールアウトを高速化し、新しいノードは、その間のトラフィック負荷のバランスを保ちながら、近隣の最新のトレーニング状態を並列に取得することができる。
またクラスタモニタを使用して、リソースとトポロジの変更を追跡してスケジューラの意思決定を支援し、ピアネゴシエーションプロトコルを通じてイベントのスケーリングを処理する。
大規模な実験により、ChaosはPolllux、EDL、Autoscalingよりもずっと低いスケールアウト遅延を実現し、1ミリ秒以内にスケールイン、接続リンク、切断リンクイベントを処理し、ノードの結合、終了、失敗を処理することができる。
また、最低のアイドルタイムを提供し、クラスタが成長するにつれて、優れたリソース使用とスケーラビリティを示す。
関連論文リスト
- PreRoutGNN for Timing Prediction with Order Preserving Partition: Global
Circuit Pre-training, Local Delay Learning and Attentional Cell Modeling [84.34811206119619]
本稿では,事前のタイミング予測に対する2段階のアプローチを提案する。
まず、回路網リストからグローバルグラフ埋め込みを学習するグラフオートエンコーダを事前学習するためのグローバル回路トレーニングを提案する。
第2に、GCN上のメッセージパッシングのための新しいノード更新方式を、学習したグラフ埋め込みと回路グラフのトポロジ的ソートシーケンスに従って使用する。
21個の実世界の回路の実験では、スラック予測のための新しいSOTA R2が0.93で達成され、以前のSOTA法では0.59をはるかに上回っている。
論文 参考訳(メタデータ) (2024-02-27T02:23:07Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - Asynchronous Hierarchical Federated Learning [10.332084068006345]
大量のサーバトラフィック、長い収束期間、信頼できない精度の問題を解決するために、非同期階層型フェデレーション学習を提案する。
特別な集約装置を選択して階層的な学習を可能にし、サーバの負担を大幅に軽減することができる。
CIFAR-10画像分類タスクにおける提案アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2022-05-31T18:42:29Z) - CrossoverScheduler: Overlapping Multiple Distributed Training
Applications in a Crossover Manner [10.152968714099558]
本稿では,分散トレーニングアプリケーションの通信サイクルを他のアプリケーションで満たすアルゴリズムであるcrossoverschedulerを提案する。
さまざまな分散タスクの実験から、CrossoverSchedulerはImageNetデータセット上の画像分類タスクの20%のスピードアップを実現している。
論文 参考訳(メタデータ) (2021-03-14T17:01:15Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Online Deep Clustering for Unsupervised Representation Learning [108.33534231219464]
オンラインディープクラスタリング(ODC)は、交互にではなく、クラスタリングとネットワーク更新を同時に実行する。
我々は,2つの動的メモリモジュール,すなわち,サンプルラベルと特徴を格納するサンプルメモリと,セントロイド進化のためのセントロイドメモリを設計,維持する。
このように、ラベルとネットワークは交互にではなく肩から肩へと進化する。
論文 参考訳(メタデータ) (2020-06-18T16:15:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。