論文の概要: Revisiting Reliability in Large-Scale Machine Learning Research Clusters
- arxiv url: http://arxiv.org/abs/2410.21680v2
- Date: Thu, 06 Feb 2025 22:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:52:56.066432
- Title: Revisiting Reliability in Large-Scale Machine Learning Research Clusters
- Title(参考訳): 大規模機械学習研究クラスタにおける信頼性の再考
- Authors: Apostolos Kokolis, Michael Kuchnik, John Hoffman, Adithya Kumar, Parth Malani, Faye Ma, Zachary DeVito, Shubho Sengupta, Kalyan Saladi, Carole-Jean Wu,
- Abstract要約: 信頼性は、大規模な機械学習インフラストラクチャを操作する上での根本的な課題である。
インフラストラクチャ障害に関する何十年もの研究にもかかわらず、さまざまなスケールでのジョブ障害の影響は、まだ不明である。
本稿では,2つの大規模マルチテナントMLクラスタを管理する視点について述べる。
- 参考スコア(独自算出の注目度): 5.028600213808539
- License:
- Abstract: Reliability is a fundamental challenge in operating large-scale machine learning (ML) infrastructures, particularly as the scale of ML models and training clusters continues to grow. Despite decades of research on infrastructure failures, the impact of job failures across different scales remains unclear. This paper presents a view of managing two large, multi-tenant ML clusters, providing quantitative analysis, operational experience, and our own perspective in understanding and addressing reliability concerns at scale. Our analysis reveals that while large jobs are most vulnerable to failures, smaller jobs make up the majority of jobs in the clusters and should be incorporated into optimization objectives. We identify key workload properties, compare them across clusters, and demonstrate essential reliability requirements for pushing the boundaries of ML training at scale. We hereby introduce a taxonomy of failures and key reliability metrics, analyze 11 months of data from two state-of-the-art ML environments with 4 million jobs and over 150 million A100 GPU hours. Building on our data, we fit a failure model to project Mean Time to Failure for various GPU scales. We further propose a method to estimate a related metric, Effective Training Time Ratio, as a function of job parameters, and we use this model to gauge the efficacy of potential software mitigations at scale. Our work provides valuable insights and future research directions for improving the reliability of AI supercomputer clusters, emphasizing the need for flexible, workload-agnostic, and reliability-aware infrastructure, system software, and algorithms.
- Abstract(参考訳): 信頼性は、大規模な機械学習(ML)インフラストラクチャの運用において、特にMLモデルとトレーニングクラスタのスケールが拡大し続けているため、基本的な課題である。
インフラストラクチャ障害に関する何十年もの研究にもかかわらず、さまざまなスケールでのジョブ障害の影響は、まだ不明である。
本稿では,2つの大規模マルチテナントMLクラスタを管理する視点について,定量的分析,運用経験,大規模信頼性の懸念に対する理解と対処に関する我々の独自の視点を提供する。
我々の分析によると、大規模なジョブは障害に対して最も脆弱であるが、小さなジョブはクラスタ内のジョブの大部分を占めており、最適化の目的に組み込まれるべきである。
主要なワークロード特性を特定し、クラスタ間で比較し、大規模にMLトレーニングのバウンダリをプッシュする上で不可欠な信頼性要件を示します。
ここでは、障害の分類と重要な信頼性メトリクスを導入し、400万ジョブと1億5000万A100GPU時間という、最先端の2つのML環境から11ヶ月のデータを分析します。
データに基づいて、さまざまなGPUスケールで平均時刻をフェールに投影するフェールモデルに適合します。
さらに,ジョブパラメータの関数として,関連する指標である効果的なトレーニング時間比を推定する方法を提案し,本モデルを用いて大規模ソフトウェア対策の有効性を評価する。
我々の研究は、AIスーパーコンピュータクラスタの信頼性を改善し、フレキシブルでワークロードに依存しない、信頼性に配慮したインフラストラクチャ、システムソフトウェア、アルゴリズムの必要性を強調する上で、貴重な洞察と今後の研究指針を提供します。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Enhancing Talent Employment Insights Through Feature Extraction with LLM Finetuning [0.0]
遠隔作業の可利用性、報酬構造、教育要件、作業経験の好みなどの変数を識別する堅牢なパイプラインを開発する。
本手法は,従来の解析ツールの限界を克服するために,意味的チャンキング,検索拡張生成(RAG),微調整DistilBERTモデルを組み合わせる。
細調整されたモデルの包括的評価を行い、その強度、限界、スケーリングの可能性について分析する。
論文 参考訳(メタデータ) (2025-01-13T19:49:49Z) - Outside the Comfort Zone: Analysing LLM Capabilities in Software Vulnerability Detection [9.652886240532741]
本稿では,ソースコードの脆弱性検出における大規模言語モデルの機能について,徹底的に解析する。
我々は6つの汎用LCMに対して脆弱性検出を特別に訓練した6つのオープンソースモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-08-29T10:00:57Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - MegaScale: Scaling Large Language Model Training to More Than 10,000
GPUs [30.034205048718885]
この規模での大規模言語モデル(LLM)のトレーニングは、効率性と安定性のトレーニングに前例のない課題をもたらします。
モデルブロック全体にわたってアルゴリズムとシステムコンポーネントを共同設計するフルスタックアプローチを採用しています。
システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。
論文 参考訳(メタデータ) (2024-02-23T22:10:59Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。