論文の概要: From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs
- arxiv url: http://arxiv.org/abs/2605.09370v1
- Date: Sun, 10 May 2026 06:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.219158
- Title: From Detection to Recovery: Operational Analysis on LLM Pre-training with 504 GPUs
- Title(参考訳): 検出から回復へ:504GPUを用いたLLM事前学習の動作解析
- Authors: Daemyung Kang, Eunjin Hwang, Hanjeong Lee, HyeokJin Kim, Hyunhoi Koo, Jeongkyu Shin, Jeongseok Kang, Jihyun Kang, Joongi Kim, Junbum Lee, Jungseung Yang, Kyujin Cho, Youngsook Song,
- Abstract要約: この技術報告では63ノードのNVIDIA B200の生産クラスタを実証分析した。
5つのパーティ(SKT、Upstage、Lablup、NVIDIA Korea、VAST Data)が統合された監視パイプラインを共有している。
これにより、2-4ノードスケールでは見られない60ノードスケールのストレージI/Oボトルネックの診断が可能となった。
- 参考スコア(独自算出の注目度): 1.2875754718643733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale AI training is now fundamentally a distributed systems problem, and hardware failures have become routine operating conditions rather than rare exceptions. Public operational evidence from production training clusters, however, remains scarce. This technical report presents an empirical analysis of a 63-node NVIDIA B200 production cluster (504 GPUs), using 55 days of Prometheus time-series data and 73 days of operational logs covering 224 multi-node training sessions. The cluster operates within a cross-organizational environment in which five parties (SKT, Upstage, Lablup, NVIDIA Korea, and VAST Data) share a unified monitoring pipeline. This arrangement enabled joint diagnosis of a 60-node-scale storage I/O bottleneck that did not appear at 2-4-node scale, a production-scale phenomenon no single team could isolate alone. Drawing on a months-long pre-training campaign, we perform three quantitative analyses yielding four findings. First, statistical analysis over 751 Prometheus metrics and 10 XID-identified GPU failures achieves a 10/10 detection rate (2/10 pre-XID) at ~0.84 false positives per day. No single metric is consistently dominant across failure types, motivating a multi-signal detection strategy. Second, profiling 523 checkpoint events along the GPU VRAM to NFS path attributes the "bandwidth paradox" (1.4-10.4% utilization of 200 Gbps RoCE) to saturation of the 128-slot NFS RPC layer. Third, multi-node failure response shows concentrated exclusions (top 3 of 63 nodes account for >50% of all exclusions) and an auto-retry chain success rate of 33.3% over 12 chains (73 attempts), 2.7x the 12.5% manual recovery rate; the median retry interval is 11 min (IQR 10-11). All analyses are grounded in production infrastructure providing session-level workload management, GPU-centric scheduling, and unified observability.
- Abstract(参考訳): 大規模AIトレーニングは、現在では基本的に分散システムの問題であり、ハードウェア障害は稀な例外ではなく、日常的な運用条件になっている。
しかし、生産訓練クラスターからの公的運用証拠は乏しい。
この技術レポートでは、55日間のPrometheus時系列データと224回のマルチノードトレーニングセッションをカバーする73日間の運用ログを使用して、63ノードのNVIDIA B200プロダクションクラスタ(504GPU)を実証分析した。
クラスタは、SKT、Upstage、Lablup、NVIDIA Korea、VAST Dataの5つのパーティが統合された監視パイプラインを共有する、組織間環境内で動作する。
これにより、2-4ノードスケールでは現れなかった60ノードスケールのストレージI/Oボトルネックの同時診断が可能となった。
本研究は,1ヶ月の事前学習キャンペーンにおいて,4つの結果を得た3つの定量的分析を行った。
第一に、751 Prometheusメトリックと10のXID識別GPU障害に対する統計的分析は、1日あたり0.84の偽陽性で10/10検出率(2/10プレXID)を達成する。
単一メトリックは、障害タイプ間で一貫して支配的であり、マルチシグナル検出戦略を動機付けている。
第二に、GPU VRAMからNFSパスへの523のチェックポイントイベントのプロファイリングでは、128スロットのNFS RPC層の飽和により"バンド幅パラドックス"(1.4-10.4%が200Gbps RoCEを使用している)が特徴である。
第3に、マルチノード障害応答は、集中的な排除(63ノードの上位3つが全除外の50%以上を占める)を示し、オートリトライチェーンの成功率は、12チェーン(73回の試行)で33.3%、手動リカバリレートで2.7倍、中央リトライ間隔は11分(IQR 10-11)である。
すべての分析は、セッションレベルのワークロード管理、GPU中心のスケジューリング、統一された可観測性を提供する運用インフラストラクチャに基盤を置いている。
関連論文リスト
- Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - StrikeWatch: Wrist-worn Gait Recognition with Compact Time-series Models on Low-power FPGAs [10.946464973530214]
歩行パターンが良くなると、特に専門家のフィードバックなしに怪我につながることがある。
Wrist-wornウェアラブルは、実用的で非侵襲的な代替手段を提供する。
本稿では,デバイス上でリアルタイム歩行認識を行う小型手首輪システムであるStrikeWatchを紹介する。
論文 参考訳(メタデータ) (2025-10-14T20:28:31Z) - Multilayer GNN for Predictive Maintenance and Clustering in Power Grids [14.557868383315022]
計画外の停電により、米国経済は年間1500億ドルを超える損失を被った。
本研究では、PdMを強化し、レジリエンスベースのサブステーションクラスタリングを可能にする多層グラフニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T21:44:51Z) - Machine Learning for Consistency Violation Faults Analysis [0.0]
本研究では,分散システムにおける整合性障害(cvfs)の影響を機械学習で解析する手法を提案する。
プログラム遷移ランクとそれに対応する効果を計算し,システム動作に対するcvfsの影響を定量化する。
実験の結果、有望な性能を示し、テスト損失は4.39、絶対誤差は1.5である。
論文 参考訳(メタデータ) (2025-05-20T22:11:43Z) - Low-cost Embedded Breathing Rate Determination Using 802.15.4z IR-UWB Hardware for Remote Healthcare [2.6066253940276347]
本稿では,超広帯域(UWB)チャネルインパルス応答(CIR)データから呼吸速度を予測するための畳み込みニューラルネットワーク(CNN)を提案する。
46KBのメモリを必要とするnRF52840システムにアルゴリズムをデプロイし,192msの推論時間で動作可能であることを示す。
論文 参考訳(メタデータ) (2025-04-03T07:54:25Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Stable Prediction on Graphs with Agnostic Distribution Shift [105.12836224149633]
グラフニューラルネットワーク(GNN)は、ランダムにトレーニングとテストデータを分離した様々なグラフタスクに有効であることが示されている。
しかし、実際のアプリケーションでは、トレーニンググラフの分布はテストグラフとは異なるかもしれない。
本稿では,グラフ上での局所的およびグローバル的に安定な学習と予測を可能にする,GNNのための新しい安定な予測フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T02:45:47Z) - Convolutional Neural Networks for Sleep Stage Scoring on a Two-Channel
EEG Signal [63.18666008322476]
睡眠障害は、世界中の主要な病気の1つです。
専門家が使用する基本的なツールはPolysomnogramで、睡眠中に記録された様々な信号の集合である。
専門家は、標準的なガイドラインの1つに従って異なる信号を採点する必要があります。
論文 参考訳(メタデータ) (2021-03-30T09:59:56Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。