Fugu-MT 論文翻訳(概要): BootSeer: Analyzing and Mitigating Initialization Bottlenecks in Large-Scale LLM Training

論文の概要: BootSeer: Analyzing and Mitigating Initialization Bottlenecks in Large-Scale LLM Training

arxiv url: http://arxiv.org/abs/2507.12619v1
Date: Wed, 16 Jul 2025 20:32:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-18 20:10:24.267744
Title: BootSeer: Analyzing and Mitigating Initialization Bottlenecks in Large-Scale LLM Training
Title（参考訳）: BootSeer: 大規模LLMトレーニングにおける初期化ブートネックの解析と緩和
Authors: Rui Li, Xiaoyun Zhi, Jinxin Chi, Menghan Yu, Lixin Huang, Jia Zhu, Weilun Zhang, Xing Ma, Wenjia Liu, Zhicheng Zhu, Daowen Luo, Zuquan Song, Xin Yin, Chao Xiang, Shuguang Wang, Wencong Xiao, Gene Cooperman,
Abstract要約: 大規模言語モデル(LLM)は現代のAIの基盤となり、自然言語処理のブレークスルーを加速し、画像、オーディオ、ビデオを含むマルチモーダルなジョブへと拡大している。多くの計算ソフトウェアと同様に、通常の実行時のパフォーマンスと起動時のオーバーヘッドを区別することが重要である。この作業は、トレーニングの起動オーバヘッドがますます重要になっている問題、すなわち、トレーニングジョブの実行開始までの遅延に重点を置いている。
参考スコア（独自算出の注目度）: 6.948144697969282
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have become a cornerstone of modern AI, driving breakthroughs in natural language processing and expanding into multimodal jobs involving images, audio, and video. As with most computational software, it is important to distinguish between ordinary runtime performance and startup overhead. Prior research has focused on runtime performance: improving training efficiency and stability. This work focuses instead on the increasingly critical issue of startup overhead in training: the delay before training jobs begin execution. Startup overhead is particularly important in large, industrial-scale LLMs, where failures occur more frequently and multiple teams operate in iterative update-debug cycles. In one of our training clusters, more than 3.5% of GPU time is wasted due to startup overhead alone. In this work, we present the first in-depth characterization of LLM training startup overhead based on real production data. We analyze the components of startup cost, quantify its direct impact, and examine how it scales with job size. These insights motivate the design of Bootseer, a system-level optimization framework that addresses three primary startup bottlenecks: (a) container image loading, (b) runtime dependency installation, and (c) model checkpoint resumption. To mitigate these bottlenecks, Bootseer introduces three techniques: (a) hot block record-and-prefetch, (b) dependency snapshotting, and (c) striped HDFS-FUSE. Bootseer has been deployed in a production environment and evaluated on real LLM training workloads, demonstrating a 50% reduction in startup overhead.
Abstract（参考訳）: 大規模言語モデル(LLM)は現代のAIの基盤となり、自然言語処理のブレークスルーを加速し、画像、オーディオ、ビデオを含むマルチモーダルなジョブへと拡大している。多くの計算ソフトウェアと同様に、通常の実行時のパフォーマンスと起動時のオーバーヘッドを区別することが重要である。以前の研究では、トレーニング効率と安定性の改善という、実行時のパフォーマンスに重点を置いていた。この作業は、トレーニングの起動オーバヘッドがますます重要になっている問題、すなわち、トレーニングジョブの実行開始までの遅延に重点を置いている。大規模な産業規模のLDMでは、障害が頻繁に発生し、複数のチームが反復的な更新・デバッグサイクルで運用される。トレーニングクラスタのひとつでは、起動オーバーヘッドだけでGPU時間の3.5%以上を無駄にしています。本研究では,実運用データに基づくLLMトレーニングスタートアップのオーバーヘッドの詳細な特徴付けを行う。スタートアップコストのコンポーネントを分析し、その直接的な影響を定量化し、ジョブサイズに合わせてどのようにスケールするかを調べます。これらの洞察は,3つの主要なスタートアップボトルネックに対処するシステムレベルの最適化フレームワークであるBootseerの設計を動機付けている。 (a)コンテナイメージローディング b) 実行時の依存性のインストール、そして (c)モデルチェックポイントの再開。これらのボトルネックを軽減するために、Bootseer氏は3つのテクニックを紹介した。 (a)ホットブロックレコード・アンド・プレフェッチ (b)依存性スナップショット、および (c)ストライプHDFS-FUSE。 Bootseerは実運用環境にデプロイされ、実際のLLMトレーニングワークロードで評価され、起動オーバーヘッドが50%削減されている。

関連論文リスト

OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training [16.91538022228882]
大規模基盤モデル(LFM)をトレーニングするための現代的なフレームワークでは、データ並列方式でデータローダを採用している。本稿では,産業用分散データロードアーキテクチャであるOmniloadについて述べる。
論文参考訳（メタデータ） (2025-04-14T03:31:22Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文参考訳（メタデータ） (2025-01-12T15:21:22Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
DataStates-LLM: Lazy Asynchronous Checkpointing for Large Language Models [3.3484462092188005]
モデルと状態シャードを構成するテンソルが、長期間にわたって不変であるという事実を生かして、遅延非同期マルチレベルアプローチを導入する。その結果、48$times$より高速なチェックポイントと2.2$times$より高速なエンドツーエンドトレーニングを実現した。
論文参考訳（メタデータ） (2024-06-15T18:30:40Z)
Sparsity-Accelerated Training for Large Language Models [20.86225596276327]
大規模言語モデル (LLM) は様々な自然言語処理 (NLP) タスクの習熟度を示した。 LLMは、連続的な事前訓練や教師付き微調整など、追加の訓練を必要とすることが多い。本稿では,この学習プロセスの迅速化のために,事前学習したLLMのエンハンスパシティを活用することを提案する。
論文参考訳（メタデータ） (2024-06-03T14:56:09Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
EE-LLM: Large-Scale Training and Inference of Early-Exit Large Language Models with 3D Parallelism [70.07661254213181]
大規模学習のためのフレームワークであるEE-LLMについて述べる。 Megatron-LMをベースとして、EE-LLMは様々なアルゴリズムの革新と早期終了に適したパフォーマンス最適化を実装している。解析的および実証的研究により、EE-LLMは無視可能な計算オーバーヘッドで優れたトレーニング効率を達成することが示された。
論文参考訳（メタデータ） (2023-12-08T09:31:50Z)
Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文参考訳（メタデータ） (2022-03-11T19:05:42Z)
Exploiting Activation based Gradient Output Sparsity to Accelerate Backpropagation in CNNs [15.465530153038927]
多くの最先端技術の背後にある原動力として、機械学習(ML/DL)ベースの技術が登場している。しかし、大きなパラメータを含むこれらのモデルをトレーニングすることは、時間とエネルギーの両方を消費する。
論文参考訳（メタデータ） (2021-09-16T04:12:51Z)
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。 BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。 EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文参考訳（メタデータ） (2020-12-31T20:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。