論文の概要: WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training
- arxiv url: http://arxiv.org/abs/2503.17924v1
- Date: Sun, 23 Mar 2025 03:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 16:32:16.892868
- Title: WLB-LLM: Workload-Balanced 4D Parallelism for Large Language Model Training
- Title(参考訳): WLB-LLM:大規模言語モデルトレーニングのためのワークロードベース4次元並列処理
- Authors: Zheng Wang, Anna Cai, Xinfeng Xie, Zaifeng Pan, Yue Guan, Weiwei Chu, Jie Wang, Shikai Li, Jianyu Huang, Chris Cai, Yuchen Hao, Yufei Ding,
- Abstract要約: WLB-LLMは、大規模言語モデルのトレーニングのためのワークロードバランスの4D並列処理である。
WLB-LLMは4次元並列化LLMトレーニングにおいて,作業負荷の不均衡を著しく軽減することを示した。
- 参考スコア(独自算出の注目度): 13.316398651410996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present WLB-LLM, a workLoad-balanced 4D parallelism for large language model training. We first thoroughly analyze the workload imbalance issue in LLM training and identify two primary sources of imbalance at the pipeline parallelism and context parallelism levels. Then, to address the imbalance issue, at the pipeline parallelism level, WLB-LLM incorporates a workload-aware variable-length document packing method to balance the computation and communication workload across micro-batches. Additionally, at the context parallelism level, WLB-LLM introduces a novel fine-grained per-document sharding strategy, ensuring each worker within a context parallelism group has an identical workload. Comprehensive experiments under different model scales demonstrate that WLB-LLM significantly mitigates the workload imbalance during 4D parallelism LLM training and achieves an average speedup of 1.23x when applying WLB-LLM in our internal LLM training framework.
- Abstract(参考訳): 本稿では,大規模言語モデルトレーニングのためのワークロードバランスの4D並列処理WLB-LLMを提案する。
まず,LLMトレーニングにおける負荷不均衡問題を徹底的に解析し,パイプライン並列性とコンテキスト並列性の2つの主要な不均衡の原因を特定する。
そして、この不均衡問題に対処するため、パイプライン並列化レベルでWLB-LLMは、マイクロバッチ間の計算と通信の負荷のバランスをとるために、ワークロード対応の可変長文書パッキング手法を組み込んだ。
さらに、コンテキスト並列化のレベルでは、WLB-LLMは文書ごとのきめ細かいシャーディング戦略を導入し、コンテキスト並列化グループ内の各ワーカーが同じワークロードを持つようにした。
また,WLB-LLMを内部LLMトレーニングフレームワークに適用した場合,WLB-LLMが4次元並列化LLMトレーニング中のワークロード不均衡を著しく軽減し,平均1.23倍の高速化を実現することを示す。
関連論文リスト
- InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training [12.911726316306755]
モータリティ構成不整合によるMLLMトレーニングにおける非効率性を軽減するためのフレームワークであるOrchMLLMを紹介する。
Batch Post-Balancing DispatcherとMLLM Global Orchestratorは、シーケンシャルデータにおけるミニバッチの不均衡を取り除くために使用される。
OrchMLLMは、84B MLLMを2560ドルのH100 GPUで3つのモダリティでトレーニングする際に、MFU(Model FLOPs utilization)を41.6%で達成し、Megatron-LMを最大3.1倍のスループットで上回っている。
論文 参考訳(メタデータ) (2025-03-31T08:24:23Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [45.510445021130685]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文 参考訳(メタデータ) (2025-03-10T10:52:50Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation [12.321332446941378]
Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)アプリケーションを強化するための重要なテクニックである。
効率的なRLHFトレーニングのための先駆的システムであるReaLを紹介する。
最大700億のパラメータと128のGPUを持つLLaMAモデル上でReaLを評価する。
論文 参考訳(メタデータ) (2024-06-20T08:04:07Z) - Investigating the translation capabilities of Large Language Models trained on parallel data only [1.5974665548135587]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2024-06-13T14:08:56Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z) - Learning Distributed and Fair Policies for Network Load Balancing as
Markov Potentia Game [4.892398873024191]
本稿では、複数のロードバランサ(LB)を配置するデータセンター(DC)におけるネットワーク負荷分散問題について検討する。
この問題の課題は、異種処理アーキテクチャと動的環境から成り立っている。
マルチエージェント負荷分散問題をマルコフポテンシャルゲームとして定式化し、そのポテンシャル関数としてのワークロード分布の公平さを慎重に適切に設計する。
ゲームのナッシュ平衡を近似するために,完全分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T08:29:02Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。