論文の概要: LUMION: Fast Fault Recovery for ML Jobs Using Programmable Optical Fabrics
- arxiv url: http://arxiv.org/abs/2505.23105v1
- Date: Thu, 29 May 2025 05:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.68979
- Title: LUMION: Fast Fault Recovery for ML Jobs Using Programmable Optical Fabrics
- Title(参考訳): LUMION:Programmable Optical Fabricsを用いたMLジョブの高速フォールトリカバリ
- Authors: Abhishek Vijaya Kumar, Eric Ding, Arjun Devraj, Darius Bunandar, Rachee Singh,
- Abstract要約: LUMIONは、データセンターラック内のアクセラレーターを接続するための、新しい再構成可能な光布地である。
MLジョブ全体を移行する代わりに、LUMIONはスペアアクセラレータを障害発生時に実行中のワークロードに動的に統合する。
我々の実験によると、LUMIONは故障したGPUを正常なGPUに置き換え、失敗の1秒以内にMLジョブを再起動する。
- 参考スコア(独自算出の注目度): 2.0066470799073817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When accelerators fail in modern ML datacenters, operators migrate the affected ML training or inference jobs to entirely new racks. This approach, while preserving network performance, is highly inefficient, requiring datacenters to reserve full racks of idle accelerators for fault tolerance. In this paper, we address this resource inefficiency by introducing LUMION, a novel reconfigurable optical fabric for connecting accelerators within a datacenter rack. Instead of migrating entire ML jobs, LUMION dynamically integrates spare accelerators into ongoing workloads as failures occur, thereby maintaining consistent performance without costly migrations. We show the benefits of LUMION by building an end-to-end hardware prototype. Our experiments fine-tune Llama 3.2 and show that LUMION swaps a failed GPU with a healthy one and restarts the ML job within ~ 1 second of the failure. LUMION achieves higher inter-GPU bandwidth compared to traditional electrical racks after replacing failed accelerators with spare ones, leading to nearly 2X improvement in fine-tuning throughput.
- Abstract(参考訳): 現代のMLデータセンターでアクセラレーターが失敗すると、オペレーターは影響を受けるMLトレーニングや推論ジョブを全く新しいラックに移行する。
このアプローチは、ネットワーク性能を保ちながら、非常に非効率であり、データセンターはフォールトトレランスのためにアイドル加速器の完全なラックを予約する必要がある。
本稿では、データセンターラック内のアクセラレーターを接続する新しい構成可能な光ファイバーであるLUMIONを導入することで、このリソース非効率に対処する。
MLジョブ全体を移行する代わりに、LUMIONはスペアアクセラレータを障害発生時に進行中のワークロードに動的に統合することで、コストのかかるマイグレーションなしに一貫したパフォーマンスを維持する。
エンドツーエンドのハードウェアプロトタイプを構築することにより,LUMIONのメリットを示す。
我々の実験では、Llama 3.2を微調整し、LUMIONが失敗したGPUを正常なGPUと交換し、失敗から1秒以内にMLジョブを再起動することを示した。
LUMIONは、失敗したアクセラレータをスペアで置き換えた後、従来の電気ラックと比較してGPU間帯域幅が向上し、微調整スループットが2倍近く向上した。
関連論文リスト
- TrainMover: An Interruption-Resilient and Reliable ML Training Runtime [16.38937239546935]
TrainMoverは、スタンバイマシンを活用して、最小のダウンタイムとメモリオーバーヘッドゼロで割り込みを処理する、レジリエントなランタイムである。
以上の結果から,TrainMoverは移動中の全モデルに対して連続的に第2レベルのダウンタイムを実現し,周期的10分間のリバランスにおいて,99%のトレーニング効率を維持した。
論文 参考訳(メタデータ) (2024-12-17T07:59:31Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Highly Available Data Parallel ML training on Mesh Networks [0.34265828682659694]
メッシュネットワークでは、障害がメッシュに穴をあけるため、これは難しい。
故障したチップを2次元メッシュ上で全トラフィックをルーティングする手法を提案する。
論文 参考訳(メタデータ) (2020-11-06T21:36:16Z) - Optimizing Memory-Access Patterns for Deep Learning Accelerators [6.931196464448543]
ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータへと移行している。
現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積操作を扱うのに長けている。
データをソフトウェア管理のスクラッチパッドメモリで適切に実行する必要があるため、アクセルの計算能力を完全に活用することは困難である。
本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T05:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。