論文の概要: DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism
- arxiv url: http://arxiv.org/abs/2602.21788v1
- Date: Wed, 25 Feb 2026 11:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.808386
- Title: DHP: Efficient Scaling of MLLM Training with Dynamic Hybrid Parallelism
- Title(参考訳): DHP:動的ハイブリッド並列性を用いたMLLMトレーニングの効率的なスケーリング
- Authors: Yifan Niu, Han Xiao, Dongyi Liu, Wei Zhou, Jia Li,
- Abstract要約: Dynamic Hybrid Parallelism (DHP) は、MLLMトレーニング中に通信グループと並列性を適応的に再構成する効率的な戦略である。
DHPはMegatron-LMとDeepSpeedを大きく上回り、トレーニングのスループットで最大1.36ドルのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 14.539699026008746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling long-context capabilities is crucial for Multimodal Large Language Models (MLLMs). However, real-world multimodal datasets are extremely heterogeneous. Existing training frameworks predominantly rely on static parallelism strategies, which suffer from severe load imbalance, redundant communication, and suboptimal hardware utilization under data heterogeneity. In this work, we propose Dynamic Hybrid Parallelism (DHP), an efficient parallelism strategy that adaptively reconfigures communication groups and parallelism degrees during MLLM training. We generalize the non-power-of-two parallelism degrees and develop a polynomial-time algorithm to generate near-optimal parallelism strategies with only millisecond-level overhead per training batch. DHP is able to maintain high hardware efficiency even under extreme data variability. Experimental results demonstrate that DHP significantly outperforms Megatron-LM and DeepSpeed, achieving up to 1.36 $\times$ speedup in training throughput while maintaining near-linear scaling efficiency across large-scale NPU clusters.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)には,長期的コンテキストのスケーリングが不可欠である。
しかし、実世界のマルチモーダルデータセットは非常に異質である。
既存のトレーニングフレームワークは主に静的並列性戦略に依存しており、負荷の不均衡、冗長な通信、データの不均一性の下でのハードウェアの最適利用に悩まされている。
本研究では,MLLM トレーニング中に通信グループと並列性度を適応的に再構成する並列性戦略である Dynamic Hybrid Parallelism (DHP) を提案する。
我々は,非パワーオブツー並列化度を一般化し,学習バッチあたりミリ秒単位のオーバーヘッドしか持たない準最適並列化戦略を生成する多項式時間アルゴリズムを開発した。
DHPは、極端なデータ可変性の下でも高いハードウェア効率を維持することができる。
実験の結果、DHPはMegatron-LMとDeepSpeedを著しく上回り、大規模NPUクラスタ間のニア線形スケーリング効率を維持しながら、トレーニングスループットの最大1.36$\times$スピードアップを達成した。
関連論文リスト
- HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。
本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。
提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-05T19:12:18Z) - Research on Model Parallelism and Data Parallelism Optimization Methods in Large Language Model-Based Recommendation Systems [6.453224262551299]
推薦システムにおける大規模言語モデル (LLM) はますます顕著になっている。
本稿では,最適化手法の2つのクラス,モデル並列性とデータ並列性について系統的に検討する。
シミュレーションサービス環境における実世界のレコメンデーションデータセットを用いて行った実験は、提案したハイブリッド並列化スキームがトレーニングスループットを30%以上向上することを示した。
論文 参考訳(メタデータ) (2025-06-21T02:37:25Z) - Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [49.2709992932292]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文 参考訳(メタデータ) (2025-03-10T10:52:50Z) - SplitBrain: Hybrid Data and Model Parallel Deep Learning [11.63431725146897]
本稿では,ハイブリッドデータとモデル並列性をサポートする高性能分散ディープラーニングフレームワークSplitBrainを提案する。
具体的には、SplitBrainは、メモリ要求層をシャーディングしながら、計算集約的な畳み込み層を同時に配置する、層固有のパーティショニングを提供する。
その結果,データとモデル並列VGGをCIFAR-10上で最大67%のメモリ消費を節約しながら,ほぼ線形スピードアップを実現することができた。
論文 参考訳(メタデータ) (2021-12-31T06:25:38Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。