論文の概要: Heterogeneous Parallelism for Multimodal Large Language Model Training
- arxiv url: http://arxiv.org/abs/2605.27678v1
- Date: Tue, 26 May 2026 20:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.516989
- Title: Heterogeneous Parallelism for Multimodal Large Language Model Training
- Title(参考訳): マルチモーダル大言語モデルトレーニングのための不均一並列性
- Authors: Yashaswi Karnati, Kamran Jafari, Akash Mehra, Li Ding, Pranav Prashant Thombre, Ali Roshan Ghias, Shifang Xu, Parth Mannan, Yu Yao, Hao Wu, Eric Harper, Ashwath Aithal, Nima Tajbakhsh,
- Abstract要約: 私たちは、一方のエンドツーエンドグラフのモジュールが独立したレイアウトとランク配置を使用することを可能にする抽象化を提示します。
我々は、マルチモーダルワークロードとGPUスケールにまたがる最適化された同種、同種、同種、非同種構成を評価した。
- 参考スコア(独自算出の注目度): 5.552279887423233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation model training is becoming multimodal, from post-training pipelines to large-scale pretraining. As modality coverage broadens, context windows grow, and encoder LLM scales diverge, a single LLM-centric TP/CP/PP/DP/EP layout increasingly limits throughput. This coupling forces encoders to inherit LLM-driven sharding and placement choices that can add communication, limit encoder parallelism, or constrain the LLM schedule; the mismatch is most pronounced at long contexts, where LLM context parallelism is needed for the fused multimodal sequence but encoder inputs remain bounded. We present heterogeneous parallelism for multimodal large language model training, an abstraction that lets modules in one end-to-end graph use independent layouts and rank placements, supporting colocated execution on shared GPUs and non-colocated execution on disjoint rank sets. The key challenge is preserving boundary tensor semantics across independent layouts: forward activations must be materialized for the destination layout, while backward gradients must be routed back to the source layout. We address this with boundary communicators that implement forward and backward layout transforms, plus scheduling extensions for both placement modes. We evaluate optimized homogeneous, colocated heterogeneous, and non-colocated heterogeneous configurations across multimodal workloads and GPU scales to characterize when added layout and placement freedom exposes a better operating point. Across this sweep, colocated heterogeneity improves TFLOPS/GPU by up to 49.3%, while non-colocated heterogeneity improves aggregate token throughput by up to 13.0% and TFLOPS/GPU by up to 9.6%. We validate loss convergence parity against homogeneous baselines and release the system as an open-source Megatron-LM extension.
- Abstract(参考訳): ファンデーションモデルトレーニングは、ポストトレーニングパイプラインから大規模プレトレーニングまで、マルチモーダルになりつつある。
モダリティのカバレッジが拡大し、コンテキストウィンドウが増加し、エンコーダのLLMスケールが拡大するにつれて、単一のLLM中心のTP/CP/PP/DP/EPレイアウトがスループットを制限している。
この結合により、エンコーダはLLM駆動のシャーディングと配置選択を継承し、通信の追加、エンコーダの並列化の制限、LLMスケジュールの制約を行う。
マルチモーダルな大規模言語モデルトレーニングのためのヘテロジニアス並列性を提案する。これは,一方のエンドツーエンドグラフのモジュールが独立したレイアウトとランク配置を使用できるようにする抽象化であり,共有GPU上でのコロケーション実行と非コロケーションなランクセットでの非コロケーション実行をサポートする。
重要な課題は、独立したレイアウト間で境界テンソルセマンティクスを保存することだ。
我々は、前方および後方のレイアウト変換を実装した境界コミュニケータと、配置モードのスケジューリング拡張でこの問題に対処する。
我々は、マルチモーダルワークロードとGPUスケールにまたがる最適化された同種、同種、同種、同種、非同種構成を評価し、レイアウトや配置自由がより良い操作ポイントを露呈するときに特徴付ける。
この全体にわたって、コロケーションの不均一性はTFLOPS/GPUを最大49.3%改善し、非コロケーション不均一性は集約トークンのスループットを最大13.0%改善し、TFLOPS/GPUを最大9.6%改善した。
我々は, 損失収束パリティを均一なベースラインに対して検証し, オープンソースMegatron-LM拡張としてシステムをリリースする。
関連論文リスト
- BeamAgent: LLM-Aided MIMO Beamforming with Decoupled Intent Parsing and Alternating Optimization for Joint Site Selection and Precoding [27.910007505066655]
BeamAgentは数値最適化から意味的意図を明示的に分離するフレームワークである。
二重層意図分類を用いた多層間相互作用機構により、ロバストな制約検証が保証される。
実験により、BeamAgentは84.0,dBの明るいゾーンのパワーを達成し、同じ暗いゾーンの制約下では7.1dBの排気ゼロ強制力を上回ることが示されている。
論文 参考訳(メタデータ) (2026-03-19T13:00:23Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - LaMPE: Length-aware Multi-grained Positional Encoding for Adaptive Long-context Scaling Without Training [45.74983991122073]
大規模言語モデル(LLM)は、入力が事前学習されたコンテキストウインドウを超えると、大幅な性能低下を経験する。
近年の研究では、OOD位置を固定写像戦略で分配範囲に再配置することでこの問題を緩和している。
本研究では,Longth-aware Multi-grained Positional Scaling (LaMPE)を提案する。
論文 参考訳(メタデータ) (2025-08-04T11:22:13Z) - ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism [9.93378263858092]
マルチモーダル大言語モデル(MLLM)は、特徴抽出器とプロジェクションモジュールを組み込むことで、画像、ビデオ、オーディオを扱う。
現在の密結合のサービスアーキテクチャは、混合要求タイプを区別するのに苦労しています。
本稿では,リソースの不均一性に弾力的に適応する新しいサービスパラダイムであるElastic Multimodal Parallelism(EMP)を紹介する。
論文 参考訳(メタデータ) (2025-07-14T08:53:48Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。