Fugu-MT 論文翻訳(概要): PerfTracker: Online Performance Troubleshooting for Large-scale Model Training in Production

論文の概要: PerfTracker: Online Performance Troubleshooting for Large-scale Model Training in Production

arxiv url: http://arxiv.org/abs/2506.08528v1
Date: Tue, 10 Jun 2025 07:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:41.850909
Title: PerfTracker: Online Performance Troubleshooting for Large-scale Model Training in Production
Title（参考訳）: PerfTracker: 大規模モデルトレーニングのためのオンラインパフォーマンストラブルシューティング
Authors: Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Tianyin Xu, Yang Zhang, Hanyu Zhao, Yong Li, Dennis Cai, Ennan Zhai,
Abstract要約: PerfTrackerは、きめ細かいプロファイリングを利用する最初のオンライントラブルシューティングシステムである。 PerfTrackerはO(10,000)の大規模GPUクラスタの運用サービスとしてデプロイされている。様々な難しいパフォーマンスの問題を診断するために使われてきた。
参考スコア（独自算出の注目度）: 25.026710240449273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Troubleshooting performance problems of large model training (LMT) is immensely challenging, due to unprecedented scales of modern GPU clusters, the complexity of software-hardware interactions, and the data intensity of the training process. Existing troubleshooting approaches designed for traditional distributed systems or datacenter networks fall short and can hardly apply to real-world training systems. In this paper, we present PerfTracker, the first online troubleshooting system utilizing fine-grained profiling, to diagnose performance issues of large-scale model training in production. PerfTracker can diagnose performance issues rooted in both hardware (e.g., GPUs and their interconnects) and software (e.g., Python functions and GPU operations). It scales to LMT on modern GPU clusters. PerfTracker effectively summarizes runtime behavior patterns of fine-grained LMT functions via online profiling, and leverages differential observability to localize the root cause with minimal production impact. PerfTracker has been deployed as a production service for large-scale GPU clusters of O(10, 000) GPUs (product homepage https://help.aliyun.com/zh/pai/user-guide/perftracker-online-performance-analysis-diagnostic-tool). It has been used to diagnose a variety of difficult performance issues.
Abstract（参考訳）: 大規模モデルトレーニング(LMT)のパフォーマンス問題に対するトラブルシューティングは、最新のGPUクラスタの前例のないスケール、ソフトウェアとハードウェアのインタラクションの複雑さ、トレーニングプロセスのデータ強度など、非常に難しい。従来の分散システムやデータセンタネットワーク用に設計された既存のトラブルシューティングアプローチは不足しており、実際のトレーニングシステムには適用できない。本稿では,大規模モデルトレーニングの性能問題を診断するために,詳細なプロファイリングを利用した最初のオンライントラブルシューティングシステムPerfTrackerを提案する。 PerfTrackerは、ハードウェア(例えば、GPUとその相互接続)とソフトウェア(例えば、Python関数とGPU操作)の両方に根ざしたパフォーマンス上の問題を診断することができる。最新のGPUクラスタ上でLMTにスケールする。 PerfTrackerは、オンラインプロファイリングを通じて、細粒度LMT関数のランタイム動作パターンを効果的に要約し、微分可観測性を活用して、生産への影響を最小限に抑えて根本原因をローカライズする。 PerfTrackerはO(10,000)GPUの大規模GPUクラスタ(製品ホームページ https://help.aliyun.com/zh/pai/user-guide/perftracker-online- Performance-analysis-diagnostic-tool)のプロダクションサービスとしてデプロイされている。様々な難しいパフォーマンスの問題を診断するために使われてきた。

関連論文リスト

Learning to Track Any Points from Human Motion [55.831218129679144]
点追跡のための擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。 AnthroTAPでトレーニングされた点追跡モデルは、TAP-Vidベンチマークで注釈付き最先端性能を達成する。
論文参考訳（メタデータ） (2025-07-08T17:59:58Z)
Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文参考訳（メタデータ） (2024-12-19T07:48:14Z)
Code generation and runtime techniques for enabling data-efficient deep learning training on GPUs [8.00550423071637]
この論文は、特にグラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)において、代表的深層学習タスクにおけるデータ非効率を解析する。これらの課題を軽減し、PyTorchスタック内でこれらの最適化をシームレスに実装するための、新しいランタイムとコード生成技術を提案する。
論文参考訳（メタデータ） (2024-12-06T03:20:03Z)
DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文参考訳（メタデータ） (2024-06-15T18:30:40Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
Accelerating Sampling and Aggregation Operations in GNN Frameworks with GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文参考訳（メタデータ） (2023-06-28T17:22:15Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文参考訳（メタデータ） (2021-10-20T14:23:54Z)
Learnable Graph Matching: Incorporating Graph Partitioning with Deep Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:58:45Z)
Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文参考訳（メタデータ） (2020-04-30T17:09:17Z)
Characterizing and Modeling Distributed Training with Transient Cloud GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文参考訳（メタデータ） (2020-04-07T01:49:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。