Fugu-MT 論文翻訳(概要): Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training

論文の概要: Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training

arxiv url: http://arxiv.org/abs/2504.09307v1
Date: Sat, 12 Apr 2025 18:43:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 08:20:00.742266
Title: Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training
Title（参考訳）: Lumos: 大規模LLMトレーニングにおける効率的なパフォーマンスモデリングと評価
Authors: Mingyu Liang, Hiwot Tadese Kassa, Wenyin Fu, Brian Coutinho, Louis Feng, Christina Delimitrou,
Abstract要約: 大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案する。 Lumosは平均3.3%のエラーで実行時間をリプレイでき、他のランタイムの詳細とともに、異なるモデルや設定で実行できる。
参考スコア（独自算出の注目度）: 4.059735204483926
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Training LLMs in distributed environments presents significant challenges due to the complexity of model execution, deployment systems, and the vast space of configurable strategies. Although various optimization techniques exist, achieving high efficiency in practice remains difficult. Accurate performance models that effectively characterize and predict a model's behavior are essential for guiding optimization efforts and system-level studies. We propose Lumos, a trace-driven performance modeling and estimation toolkit for large-scale LLM training, designed to accurately capture and predict the execution behaviors of modern LLMs. We evaluate Lumos on a production ML cluster with up to 512 NVIDIA H100 GPUs using various GPT-3 variants, demonstrating that it can replay execution time with an average error of just 3.3%, along with other runtime details, across different models and configurations. Additionally, we validate its ability to estimate performance for new setups from existing traces, facilitating efficient exploration of model and deployment configurations.
Abstract（参考訳）: 分散環境でのLSMのトレーニングは、モデル実行の複雑さ、デプロイメントシステム、および膨大な設定可能な戦略の空間によって、大きな課題を呈する。様々な最適化手法が存在するが、実際に高い効率を達成することは依然として困難である。モデルの振舞いを効果的に特徴づけ、予測する正確な性能モデルは、最適化の取り組みとシステムレベルの研究を導くのに不可欠である。大規模LLMトレーニングのためのトレース駆動性能モデリングおよび推定ツールキットであるLumosを提案し,現代のLLMの実行挙動を正確に把握し,予測する。 GPT-3のさまざまな変種を使って最大512個のNVIDIA H100 GPUを持つプロダクションMLクラスタ上でLumosを評価し、実行時間を平均3.3%のエラーで再現できることを実証した。さらに、既存のトレースから新しいセットアップのパフォーマンスを推定し、モデルおよびデプロイメント構成の効率的な探索を容易にする能力を検証する。

関連論文リスト

Large Language Model Enhanced Particle Swarm Optimization for Hyperparameter Tuning for Deep Learning Models [2.3949320404005436]
Particle Swarm Optimization and Large Language Models (LLM) は、最適化とディープラーニングに個別に適用されている。本研究は,モデル評価の低減と収束性向上のため,PLMをPSOに統合することで,このギャップに対処する。提案手法は, 探索空間の探索を最適化し, 粒子配置を最適化する手法である。
論文参考訳（メタデータ） (2025-04-19T00:54:59Z)
Efficient Model Selection for Time Series Forecasting via LLMs [52.31535714387368]
本稿では,Large Language Models (LLM) をモデル選択の軽量な代替手段として活用することを提案する。提案手法は, LLMの固有知識と推論能力を活用することで, 明示的な性能行列の必要性を解消する。
論文参考訳（メタデータ） (2025-04-02T20:33:27Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。 FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
CubicML: Automated ML for Large ML Systems Co-design with ML Prediction of Performance [7.425372356516303]
ディープラーニングモデルのスケールアップは、機械学習モデル(ML)のインテリジェンスを改善するために有効であることが証明されている。本稿では,大規模分散MLシステムのトレーニング性能を自動最適化するCuicMLを提案する。我々は,CubicMLがメタ広告において,73億のパラメータと最大4050億のパラメータを持つ社内推薦モデルのトレーニング速度を効果的に最適化できることを証明した。
論文参考訳（メタデータ） (2024-09-06T19:55:21Z)
Understanding the Performance and Estimating the Cost of LLM Fine-Tuning [9.751868268608675]
コスト効率の良い特定のタスクのための微調整大型言語モデル(LLM)。本稿では,Sparse Mixture of Experts (MoE)をベースとしたLLMファインチューニングを特徴付ける。また,クラウド上でのLCM微調整のコストを推定するための解析モデルを開発し,検証する。
論文参考訳（メタデータ） (2024-08-08T16:26:07Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文参考訳（メタデータ） (2021-11-09T03:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。