論文の概要: Phantora: Live GPU Cluster Simulation for Machine Learning System Performance Estimation
- arxiv url: http://arxiv.org/abs/2505.01616v1
- Date: Fri, 02 May 2025 22:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.19353
- Title: Phantora: Live GPU Cluster Simulation for Machine Learning System Performance Estimation
- Title(参考訳): Phantora: 機械学習システムのパフォーマンス評価のためのライブGPUクラスタシミュレーション
- Authors: Jianxing Qin, Jingrong Chen, Xinhao Kong, Yongji Wu, Liang Luo, Zhaodong Wang, Ying Zhang, Tingjun Chen, Alvin R. Lebeck, Danyang Zhuo,
- Abstract要約: Phantoraは、パフォーマンス評価のためのライブGPUクラスタシミュレータである。
イベント駆動ネットワークシミュレータとライブシステム実行を統合する上で、いくつかの研究課題を克服する。
評価の結果,Phantoraは1つのGPUのみで,最先端のワークロードシミュレーション手法に類似した推定精度を実現できることがわかった。
- 参考スコア(独自算出の注目度): 11.48166268734119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To accommodate ever-increasing model complexity, modern machine learning (ML) systems have to scale to large GPU clusters. Changes in ML model architecture, ML system implementation, and cluster configuration can significantly affect overall ML system performance. However, quantifying the performance impact before deployment is challenging. Existing performance estimation methods use performance modeling or static workload simulation. These techniques are not general: they requires significant human effort and computation capacity to generate training data or a workload. It is also difficult to adapt ML systems to use these techniques. This paper introduces, Phantora, a live GPU cluster simulator for performance estimation. Phantora runs minimally modified ML models and frameworks, intercepting and simulating GPU-related operations to enable high-fidelity performance estimation. Phantora overcomes several research challenges in integrating an event-driven network simulator with live system execution, and introduces a set of techniques to improve simulation speed, scalability, and accuracy. Our evaluation results show that Phantora can deliver similar estimation accuracy to the state-of-the-art workload simulation approach with only one GPU, while reducing human effort and increasing generalizability.
- Abstract(参考訳): モデル複雑性の増大に対応するため、現代の機械学習(ML)システムは、大規模なGPUクラスタにスケールする必要がある。
MLモデルアーキテクチャの変更、MLシステムの実装、クラスタ構成は、MLシステム全体のパフォーマンスに大きな影響を与える可能性がある。
しかし、デプロイ前のパフォーマンスへの影響の定量化は難しい。
既存の性能推定手法は、性能モデリングや静的ワークロードシミュレーションを用いる。
これらのテクニックは一般的なものではなく、トレーニングデータやワークロードを生成するには、多大な人的労力と計算能力が必要です。
また、これらの手法をMLシステムに適用することは困難である。
本稿では,パフォーマンス評価のためのGPUクラスタシミュレータPhantoraを紹介する。
Phantoraは最小限の変更されたMLモデルとフレームワークを実行し、GPU関連の操作をインターセプトし、シミュレーションすることで、高忠実度のパフォーマンス推定を可能にする。
Phantoraは、イベント駆動ネットワークシミュレータをライブシステム実行に統合する際のいくつかの研究課題を克服し、シミュレーション速度、スケーラビリティ、正確性を改善するための一連のテクニックを導入している。
評価の結果、Phantoraは1つのGPUで最先端のワークロードシミュレーション手法に類似した推定精度を提供できる一方で、人間の労力を削減し、一般化可能性を高めることができることがわかった。
関連論文リスト
- MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - The Artificial Scientist -- in-transit Machine Learning of Plasma Simulations [33.024345484180024]
シミュレーションデータを機械学習(ML)フレームワークに直接ストリーミングするストリーミングワークフローを実演する。
提示されたワークフローでは、データ操作は共通で使いやすいプログラミング言語で実行できる。
論文 参考訳(メタデータ) (2025-01-06T20:58:27Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - SimNet: Computer Architecture Simulation using Machine Learning [3.7019798164954336]
この研究では、機械学習(ML)を使用して離散イベントシミュレーションを加速する共同作業について説明します。
提案した命令遅延予測器に基づいて,GPU加速並列シミュレータを実装した。
そのシミュレーション精度とスループットを、最先端シミュレータに対して検証し、評価する。
論文 参考訳(メタデータ) (2021-05-12T17:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。