論文の概要: Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation
- arxiv url: http://arxiv.org/abs/2505.01616v2
- Date: Tue, 23 Sep 2025 14:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 18:29:14.472054
- Title: Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation
- Title(参考訳): Phantora: シミュレーションに基づく機械学習システムのパフォーマンス評価におけるコード再利用の最大化
- Authors: Jianxing Qin, Jingrong Chen, Xinhao Kong, Yongji Wu, Tianjun Yuan, Liang Luo, Zhaodong Wang, Ying Zhang, Tingjun Chen, Alvin R. Lebeck, Danyang Zhuo,
- Abstract要約: Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。
MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。
Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
- 参考スコア(独自算出の注目度): 13.326000659635378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning (ML) training workloads place substantial demands on both computational and communication resources. Consequently, accurate performance estimation has become increasingly critical for guiding system design decisions, such as the selection of parallelization strategies, cluster configurations, and hardware provisioning. Existing simulation-based performance estimation requires reimplementing the ML framework in a simulator, which demands significant manual effort and is hard to maintain as ML frameworks evolve rapidly. This paper introduces Phantora, a hybrid GPU cluster simulator designed for performance estimation of ML training workloads. Phantora executes unmodified ML frameworks as is within a distributed, containerized environment. Each container emulates the behavior of a GPU server in a large-scale cluster, while Phantora intercepts and simulates GPU- and communication-related operations to provide high-fidelity performance estimation. We call this approach hybrid simulation of ML systems, in contrast to traditional methods that simulate static workloads. The primary advantage of hybrid simulation is that it allows direct reuse of ML framework source code in simulation, avoiding the need for reimplementation. Our evaluation shows that Phantora provides accuracy comparable to static workload simulation while supporting three state-of-the-art LLM training frameworks out-of-the-box. In addition, Phantora operates on a single GPU, eliminating the need for the resource-intensive trace collection and workload extraction steps required by traditional trace-based simulators. Phantora is open-sourced at https://github.com/QDelta/Phantora.
- Abstract(参考訳): 現代の機械学習(ML)トレーニングワークロードは、計算リソースと通信リソースの両方にかなりの要求を課している。
その結果,並列化戦略の選択やクラスタ構成,ハードウェアプロビジョニングなど,システム設計の決定を導く上で,正確なパフォーマンス推定がますます重要になっている。
既存のシミュレーションベースのパフォーマンス推定では、シミュレータにMLフレームワークを再実装する必要がある。
本稿では,MLトレーニングワークロードのパフォーマンス評価を目的としたハイブリッドGPUクラスタシミュレータであるPhantoraを紹介する。
Phantoraは、分散化されたコンテナ環境で、修正されていないMLフレームワークを実行する。
各コンテナは、大規模なクラスタ内のGPUサーバの挙動をエミュレートし、PhantoraはGPUおよび通信関連の操作をインターセプトし、シミュレートして、高忠実性のパフォーマンス推定を提供する。
我々は、静的なワークロードをシミュレートする従来の手法とは対照的に、このアプローチをMLシステムのハイブリッドシミュレーションと呼んでいる。
ハイブリッドシミュレーションの主な利点は、MLフレームワークのソースコードをシミュレーションで直接再利用できることだ。
評価の結果,Phantoraは静的なワークロードシミュレーションに匹敵する精度を提供しながら,最先端の3つのLLMトレーニングフレームワークを最初からサポートしていることがわかった。
さらに、Phantoraは単一のGPUで動作し、従来のトレースベースのシミュレータに必要なリソース集約トレースコレクションとワークロード抽出ステップを不要にしている。
Phantoraはhttps://github.com/QDelta/Phantora.comでオープンソース化されている。
関連論文リスト
- MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - DoMINO: A Decomposable Multi-scale Iterative Neural Operator for Modeling Large Scale Engineering Simulations [2.300471499347615]
DoMINOは点クラウドベースの機械学習モデルであり、局所幾何学情報を用いて離散点上の流れ場を予測する。
DoMINOは、DrivAerMLデータセットを使用して、自動車空気力学のユースケースで検証されている。
論文 参考訳(メタデータ) (2025-01-23T03:28:10Z) - The Artificial Scientist -- in-transit Machine Learning of Plasma Simulations [33.024345484180024]
シミュレーションデータを機械学習(ML)フレームワークに直接ストリーミングするストリーミングワークフローを実演する。
提示されたワークフローでは、データ操作は共通で使いやすいプログラミング言語で実行できる。
論文 参考訳(メタデータ) (2025-01-06T20:58:27Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - SimNet: Computer Architecture Simulation using Machine Learning [3.7019798164954336]
この研究では、機械学習(ML)を使用して離散イベントシミュレーションを加速する共同作業について説明します。
提案した命令遅延予測器に基づいて,GPU加速並列シミュレータを実装した。
そのシミュレーション精度とスループットを、最先端シミュレータに対して検証し、評価する。
論文 参考訳(メタデータ) (2021-05-12T17:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。