論文の概要: Guard: Scalable Straggler Detection and Node Health Management for Large-Scale Training
- arxiv url: http://arxiv.org/abs/2605.17879v1
- Date: Mon, 18 May 2026 05:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.896919
- Title: Guard: Scalable Straggler Detection and Node Health Management for Large-Scale Training
- Title(参考訳): Guard: 大規模トレーニングのためのスケーラブルなストラグラー検出とノードヘルス管理
- Authors: Guanliang Liu, Abhinandan Patni, Congzhu Lin, Zoe Zeng, Jack Wittmayer, Josh Wu, Ashvin Nihalani, Binxuan Huang, Yinghong Liu, Rory Na, Anthony Ko, Alexander Zhipa, Cong Cheng, Mi Sun, Vijay Rajakumar, Rejith George Joseph, Parthasarathy Govindarajen,
- Abstract要約: Guardは、大規模なトレーニングクラスタにおいて、ストラグラーを検出し、ノードの健全性を保証するシステムである。
FLOPの平均使用率を最大1.7倍に改善し、実行中のトレーニングステップの分散を20%から1%に削減する。
- 参考スコア(独自算出の注目度): 29.310201112933047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training frontier-scale foundation models involves coordinating tens of thousands of GPUs over multi-month runs, where even minor performance degradations can accumulate into substantial efficiency losses. Existing health-check mechanisms, such as NCCL tests or GPU burn-in, primarily focus on functional correctness and often fail to detect fail-slow behaviors that silently degrade system performance. In this paper, we present Guard, a scalable system for detecting stragglers and ensuring node health in large-scale training clusters. Guard combines lightweight online performance monitoring during training with an offline node-sweep mechanism that systematically evaluates and qualifies nodes before they participate in production workloads. This design enables Guard to detect both acute failures and long-running fail-slow behaviors that traditional diagnostics cannot capture. Deployed on large-scale foundation model pretraining workloads, Guard improves mean FLOPs utilization by up to 1.7x, reduces run-to-run training step variance from 20% to 1%, increases mean time to failure (MTTF), and significantly reduces operational and debugging overhead. These results demonstrate that proactive straggler detection and systematic node qualification are critical for maintaining stable and efficient large-scale training.
- Abstract(参考訳): トレーニングフロンティアスケールのファンデーションモデルは、数ヵ月間の実行で数万のGPUをコーディネートする。
NCCLテストやGPUバーンインといった既存のヘルスチェックメカニズムは、主に機能の正しさに重点を置いており、システムパフォーマンスを静かに低下させるフェールスロー動作の検出に失敗することが多い。
本稿では,大規模トレーニングクラスタにおいて,トラグラーの検出とノードの健全性を確保するスケーラブルなシステムであるGuardを提案する。
Guardはトレーニング中の軽量なオンラインパフォーマンス監視と、運用ワークロードに参加する前にノードを体系的に評価し、資格付けするオフラインノードスイートメカニズムを組み合わせる。
この設計により、ガードは、従来の診断では捉えられない、急性障害と長期にわたるフェールスロー動作の両方を検出することができる。
大規模なファンデーションモデル事前トレーニングワークロードにデプロイされたGuardianは、FLOPの平均使用率を最大1.7倍改善し、実行中のトレーニングステップの分散を20%から1%に削減し、平均障害時間(MTTF)を向上し、運用とデバッグのオーバーヘッドを大幅に削減する。
これらの結果から, 安定かつ効率的な大規模トレーニングの維持には, プロアクティブ・ストラグラー検出と系統的ノード認証が重要であることが示唆された。
関連論文リスト
- When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance [0.0]
本稿では,ネットワークとファブリックの効果に焦点をあて,実システムにおいてスケーリングが失敗する理由について考察する。
本稿では,複数のプロダクションスケールクラスタを対象とした分散GPUトレーニング性能に関する実証的研究を行う。
単一ノードからマルチノード実行へのトレーニング移行に伴って発生する繰り返し発生する障害モードを特定します。
論文 参考訳(メタデータ) (2026-02-16T16:19:47Z) - FreeGAD: A Training-Free yet Effective Approach for Graph Anomaly Detection [54.576802512108685]
Graph Anomaly Detection (GAD)は、グラフ内の多数から逸脱するノードを特定することを目的としている。
既存のアプローチは、複雑でリソース集約的なトレーニングプロセスのために、高デプロイメントコストとスケーラビリティの不足に悩まされることが多い。
新たなGAD法であるFreeGADを提案する。
論文 参考訳(メタデータ) (2025-08-14T12:37:20Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - CE-SSL: Computation-Efficient Semi-Supervised Learning for ECG-based Cardiovascular Diseases Detection [16.34314710823127]
本稿では,ECG を用いた計算効率の高い CVD 検出のための計算効率の高い半教師付き学習パラダイム (CE-SSL) を提案する。
これは、限られた監督と高い計算効率で、下流データセットに事前訓練されたモデルの堅牢な適応を可能にする。
CE-SSLは、マルチラベルCVDの検出における最先端メソッドよりも優れているだけでなく、GPUフットプリント、トレーニング時間、パラメータストレージスペースも少ない。
論文 参考訳(メタデータ) (2024-06-20T14:45:13Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。
超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。
これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文 参考訳(メタデータ) (2023-10-16T04:06:52Z) - Aspis: A Robust Detection System for Distributed Learning [13.90938823562779]
機械学習システムは、いくつかのコンピューティングデバイスが異常(ビザンティン)な振る舞いを示すときに、妥協される。
提案手法は,サブセットベースの代入を用いて作業ノードに勾配計算を割り当てる。
我々は、弱強攻撃下でのビザンチンの弾力性とアスピスの検出の保証を証明し、様々な大規模訓練シナリオにおいてシステムを広範囲に評価する。
論文 参考訳(メタデータ) (2021-08-05T07:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。