論文の概要: Machine Learning Fleet Efficiency: Analyzing and Optimizing Large-Scale Google TPU Systems with ML Productivity Goodput
- arxiv url: http://arxiv.org/abs/2502.06982v1
- Date: Mon, 10 Feb 2025 19:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:08.085474
- Title: Machine Learning Fleet Efficiency: Analyzing and Optimizing Large-Scale Google TPU Systems with ML Productivity Goodput
- Title(参考訳): 機械学習フリート効率:ML生産性向上による大規模Google TPUシステムの解析と最適化
- Authors: Arissa Wongpanich, Tayo Oguntebi, Jose Baiocchi Paredes, Yu Emma Wang, Phitchaya Mangpo Phothilimthana, Ritwika Mitra, Zongwei Zhou, Naveen Kumar, Vijay Janapa Reddi,
- Abstract要約: 本稿では,GoogleのTPUに基づくMLフリートを大規模に解析する。
MLプロダクティビティグッドプット(ML Productivity Goodput)"のメトリクスを使って、MLフリート効率を計測する方法を示します。
また,MPGを用いて性能ボトルネックを特定し,最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 9.994725016006015
- License:
- Abstract: Recent years have seen the emergence of machine learning (ML) workloads deployed in warehouse-scale computing (WSC) settings, also known as ML fleets. As the computational demands placed on ML fleets have increased due to the rise of large models and growing demand for ML applications, it has become increasingly critical to measure and improve the efficiency of such systems. However, there is not yet an established methodology to characterize ML fleet performance and identify potential performance optimizations accordingly. This paper presents a large-scale analysis of an ML fleet based on Google's TPUs, introducing a framework to capture fleet-wide efficiency, systematically evaluate performance characteristics, and identify optimization strategies for the fleet. We begin by defining an ML fleet, outlining its components, and analyzing an example Google ML fleet in production comprising thousands of accelerators running diverse workloads. Our study reveals several critical insights: first, ML fleets extend beyond the hardware layer, with model, data, framework, compiler, and scheduling layers significantly impacting performance; second, the heterogeneous nature of ML fleets poses challenges in characterizing individual workload performance; and third, traditional utilization-based metrics prove insufficient for ML fleet characterization. To address these challenges, we present the "ML Productivity Goodput" (MPG) metric to measure ML fleet efficiency. We show how to leverage this metric to characterize the fleet across the ML system stack. We also present methods to identify and optimize performance bottlenecks using MPG, providing strategies for managing warehouse-scale ML systems in general. Lastly, we demonstrate quantitative evaluations from applying these methods to a real ML fleet for internal-facing Google TPU workloads, where we observed tangible improvements.
- Abstract(参考訳): 近年、倉庫スケールコンピューティング(WSC)設定にデプロイされる機械学習(ML)ワークロードが出現している。
MLフリートの計算要求は、大規模モデルの増加とMLアプリケーションの需要の増加により増加しており、そのようなシステムの効率を計測し改善することがますます重要になっている。
しかし、MLフリートのパフォーマンスを特徴付け、それに応じて潜在的なパフォーマンス最適化を特定する方法はまだ確立されていない。
本稿では,GoogleのTPUに基づくMLフリートを大規模に解析し,艦隊全体の効率性を把握し,性能特性を体系的に評価し,艦隊の最適化戦略を特定するためのフレームワークを提案する。
まず、MLフリートを定義し、そのコンポーネントの概要を説明し、さまざまなワークロードを実行する数千のアクセラレータで構成される実運用におけるGoogle MLフリートの分析から始めます。
まず、MLフリートがハードウェア層を超えて拡張され、モデル、データ、フレームワーク、コンパイラ、スケジューリングレイヤがパフォーマンスに大きな影響を与えます。
これらの課題に対処するため、MLフリート効率を測定するために、"ML Productivity Goodput"(MPG)メトリクスを提示する。
このメトリクスを利用して、MLシステムスタックをまたいだフリートを特徴付ける方法を示します。
また,MPGを用いて性能ボトルネックを特定し,最適化する手法を提案し,倉庫規模のMLシステム全般を管理するための戦略を提供する。
最後に、これらのメソッドを実際のMLフリートに適用して、Google TPUワークロードに対して定量的な評価を行った。
関連論文リスト
- Large Language Models for Constructing and Optimizing Machine Learning Workflows: A Survey [4.917456871628609]
複雑なタスクに対処するための効果的な機械学習(ML)を構築することは、Automatic ML(AutoML)コミュニティの主要な焦点である。
最近、MLへのLLM(Large Language Models)の統合は、MLパイプラインのさまざまなステージを自動化し、拡張する大きな可能性を示している。
論文 参考訳(メタデータ) (2024-11-11T21:54:26Z) - Position: A Call to Action for a Human-Centered AutoML Paradigm [83.78883610871867]
自動機械学習(AutoML)は、機械学習(ML)を自動かつ効率的に構成する基本的目的を中心に形成された。
AutoMLの完全な可能性を解き放つ鍵は、現在探索されていないAutoMLシステムとのユーザインタラクションの側面に対処することにある、と私たちは主張する。
論文 参考訳(メタデータ) (2024-06-05T15:05:24Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Towards an Efficient ML System: Unveiling a Trade-off between Task
Accuracy and Engineering Efficiency in a Large-scale Car Sharing Platform [0.0]
本稿では,実践者のドメインに存在する多数のデータセット,分類器,配布外検知器,予測テーブルを単一のMLに記述する,テキスト効率中心型MLシステムを提案する。
実世界のカーシェアリングプラットフォームにおける様々な画像認識タスクの下で、提案システムの構築と、この旅から学んだ教訓について検討した。
論文 参考訳(メタデータ) (2022-10-10T15:40:50Z) - Towards Perspective-Based Specification of Machine Learning-Enabled
Systems [1.3406258114080236]
本稿では、ML対応システムを特定するための視点に基づくアプローチに向けた取り組みについて述べる。
このアプローチでは、目標、ユーザエクスペリエンス、インフラストラクチャ、モデル、データという5つの視点にグループ化された45のML関心事のセットを分析する。
本論文の主な貢献は、ML対応システムを特定するのに役立つ2つの新しいアーティファクトを提供することである。
論文 参考訳(メタデータ) (2022-06-20T13:09:23Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。