Fugu-MT 論文翻訳(概要): Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

論文の概要: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training

arxiv url: http://arxiv.org/abs/2503.23830v2
Date: Wed, 09 Apr 2025 06:39:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-10 13:44:50.160085
Title: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal Large Language Model Training
Title（参考訳）: バッチ後バランシングによるマルチモーダル大規模言語モデル学習の高速化
Authors: Yijie Zheng, Bangjun Xiao, Lei Shi, Xiaoyang Li, Faming Wu, Tianyu Li, Xuefeng Xiao, Yang Zhang, Yuxuan Wang, Shouda Liu,
Abstract要約: モータリティ構成不整合によるMLLMトレーニングにおける非効率性を軽減するためのフレームワークであるOrchMLLMを紹介する。 Batch Post-Balancing DispatcherとMLLM Global Orchestratorは、シーケンシャルデータにおけるミニバッチの不均衡を取り除くために使用される。 OrchMLLMは、84B MLLMを2560ドルのH100 GPUで3つのモダリティでトレーニングする際に、MFU(Model FLOPs utilization)を41.6%で達成し、Megatron-LMを最大3.1倍のスループットで上回っている。
参考スコア（独自算出の注目度）: 12.911726316306755
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Multimodal large language models (MLLMs), such as GPT-4o, are garnering significant attention. During the exploration of MLLM training, we identified Modality Composition Incoherence, a phenomenon that the proportion of a certain modality varies dramatically across different examples. It exacerbates the challenges of addressing mini-batch imbalances, which lead to uneven GPU utilization between Data Parallel (DP) instances and severely degrades the efficiency and scalability of MLLM training, ultimately affecting training speed and hindering further research on MLLMs. To address these challenges, we introduce OrchMLLM, a comprehensive framework designed to mitigate the inefficiencies in MLLM training caused by Modality Composition Incoherence. First, we propose Batch Post-Balancing Dispatcher, a technique that efficiently eliminates mini-batch imbalances in sequential data. Additionally, we integrate MLLM Global Orchestrator into the training framework to orchestrate multimodal data and tackle the issues arising from Modality Composition Incoherence. We evaluate OrchMLLM across various MLLM sizes, demonstrating its efficiency and scalability. Experimental results reveal that OrchMLLM achieves a Model FLOPs Utilization (MFU) of $41.6\%$ when training an 84B MLLM with three modalities on $2560$ H100 GPUs, outperforming Megatron-LM by up to $3.1\times$ in throughput.
Abstract（参考訳）: GPT-4oのようなマルチモーダルな大言語モデル (MLLM) は注目されている。 MLLMトレーニングの実施期間中に,特定のモーフィナリティの割合が異なる例で劇的に変化する現象であるモーフィナリティ・コンポジション・インコヒーレンス(Modality composition Incoherence)を同定した。これにより、Data Parallel(DP)インスタンス間の不均一なGPU利用が実現し、MLLMトレーニングの効率性とスケーラビリティが大幅に低下し、最終的にトレーニング速度に影響を与え、MLLMに関するさらなる研究を妨げる、ミニバッチ不均衡に対処する課題が悪化する。これらの課題に対処するために,モータリティ構成不整合によるMLLMトレーニングにおける非効率性を軽減するために設計された包括的フレームワークであるOrchMLLMを紹介する。まず,Batch Post-Balancing Dispatcherを提案する。さらに、MLLM Global Orchestratorをトレーニングフレームワークに統合し、マルチモーダルデータをオーケストレーションし、モダリティ構成の一貫性から生じる問題に対処する。我々はOrchMLLMを様々なMLLMサイズで評価し、その効率性とスケーラビリティを実証した。実験の結果、OrchMLLMは84B MLLMを2560ドルH100GPUで3つのモードでトレーニングする際に41.6\%のモデルFLOPs(MFU)を達成し、Megatron-LMを最大3.1\times$スループットで上回ることがわかった。

関連論文リスト

Visual Instruction Bottleneck Tuning [24.864232100295133]
マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。 MLLMの一般化を改善する既存の方法は、通常、より多くの命令データまたはより大きな高度なモデルアーキテクチャを必要とする。我々は、表現学習の観点から、分布シフト下でのMLLMの堅牢性を高めるための代替アプローチを採っている。
論文参考訳（メタデータ） (2025-05-20T05:24:53Z)
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。 5つのメインストリームMLLM(Qwen-VL, Mini-V, CogVLM2)では、W4A8のMQuantがほぼ浮動小数点精度(1%劣化)を実現し、推論遅延を最大30%削減する。
論文参考訳（メタデータ） (2025-02-01T13:08:02Z)
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [20.688382669309096]
p-MoDは、モデル性能を維持しながら、トレーニングと推論のコストを大幅に削減する効率的なMLLMアーキテクチャである。我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。
論文参考訳（メタデータ） (2024-12-05T18:58:03Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
$γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:59:53Z)
EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。 MLLMの自己注意機構を複合注意機構に変更した。 EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文参考訳（メタデータ） (2024-08-21T17:36:37Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
ModaVerse: Efficiently Transforming Modalities with LLMs [25.49713745405194]
ModaVerseはマルチモーダルな大規模言語モデルで、様々なモダリティにまたがってコンテンツを解釈・変換できる。自然言語のレベルで直接動作する新しい入出力(I/O)アライメント機構を提案する。
論文参考訳（メタデータ） (2024-01-12T06:28:54Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。