論文の概要: LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms
- arxiv url: http://arxiv.org/abs/2505.00342v1
- Date: Thu, 01 May 2025 06:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.250025
- Title: LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms
- Title(参考訳): LLMPrism:生産用LLMトレーニングプラットフォームにおけるブラックボックス性能診断
- Authors: Zhihan Jiang, Rui Ren, Guangba Yu, Yulun Wu, Wenwei Gu, Yichen Li, Yujie Huang, Cong Feng, Zengyin Yang, Yongqiang Yang, Michael R. Lyu,
- Abstract要約: 大規模言語モデル (LLM) は様々な分野で革命的な変化をもたらした。
本稿では,ジョブのトレーニングスケジュールを再構築するための基盤となるネットワークフローデータの利用を提案する。
LLMトレーニングプラットフォームのための最初のブラックボックス性能診断システムであるLSMPrismを設計する。
- 参考スコア(独自算出の注目度): 31.576014566773697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have brought about revolutionary changes in diverse fields, rendering LLM training of utmost importance for modern enterprises. To meet this demand, multi-tenant large-scale LLM training platforms have been built to offer LLM training services. Nevertheless, due to the complexity and synchronous nature of LLM training process, performance issues occur frequently and can result in substantial resource wastage. The limited visibility from the perspective of platform providers impedes existing profiling methods and poses challenges to the monitoring and diagnosis of the performance of LLM training jobs. For the first time, this paper proposes the utilization of underlying network flow data to reconstruct the training timelines of jobs based on the distinct characteristics in the LLM training procedure. We design LLMPrism, the first black-box performance diagnosis system for LLM training platforms. By progressively recognizing LLM training jobs, identifying their parallelism strategies, and reconstructing the training timelines, LLMPrism achieves non-intrusive, lightweight, and continuous monitoring of LLM training systems. Leveraging this monitoring capability, it further effectively diagnoses potential performance issues. Since Oct. 2024, LLMPrism has been deployed on our large-scale production Platform-X, in which the evaluations and deployment experiences demonstrate that LLMPrism can achieve accurate timeline reconstruction with an error within 0.3% and effectively diagnose various performance issues.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野に革命的な変化をもたらし、LLMトレーニングを現代企業にとって最も重要視している。
この需要に応えるため、LLMトレーニングサービスを提供するため、マルチテナント大規模LLMトレーニングプラットフォームが構築されている。
それでも、LLMトレーニングプロセスの複雑さと同期性のため、パフォーマンスの問題が頻繁に発生し、かなりのリソースの浪費につながる可能性がある。
プラットフォームプロバイダの観点から見た限られた可視性は、既存のプロファイリング手法を阻害し、LLMトレーニングジョブのパフォーマンスの監視と診断に課題をもたらす。
そこで本研究では,LLMのトレーニング手順の異なる特徴に基づいて,ネットワークフローデータを用いてジョブのトレーニングスケジュールを再構築する手法を提案する。
LLMトレーニングプラットフォームのための最初のブラックボックス性能診断システムであるLSMPrismを設計する。
LLMトレーニングジョブを段階的に認識し、並列性戦略を特定し、トレーニングタイムラインを再構築することにより、LLMPrismはLLMトレーニングシステムの非侵襲的で軽量で継続的な監視を実現する。
このモニタリング機能を活用することで、潜在的なパフォーマンス問題をさらに効果的に診断できる。
2024年10月以降、LLMPrismは大規模生産プラットフォーム-Xに配備され、その評価と展開経験から、LLMPrismは0.3%以内の誤差で正確なタイムライン再構築を達成でき、様々なパフォーマンス問題を効果的に診断できることを示した。
関連論文リスト
- L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis [33.245458231704546]
我々は,2023年5月から2024年4月までに,当社のPlatform-Xにおける428大言語モデルトレーニング失敗の報告に関する実証的研究を行った。
本研究は,ハードウェアおよびユーザ障害が根本原因であり,現在の診断プロセスがログのトレーニングに大きく依存していることを明らかにする。
我々は、ログベースの大規模LCMトレーニング失敗診断フレームワークL4を導入し、トレーニングログから障害指示情報を自動抽出する。
論文 参考訳(メタデータ) (2025-03-26T06:09:55Z) - Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。
本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文 参考訳(メタデータ) (2025-01-02T12:09:17Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - OPDAI at SemEval-2024 Task 6: Small LLMs can Accelerate Hallucination
Detection with Weakly Supervised Data [1.3981625092173873]
本稿では,LLMの幻覚検出システムについて述べる。
SemEval-2024 Task 6のモデル非依存トラックで2位を獲得した。
論文 参考訳(メタデータ) (2024-02-20T11:01:39Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。