論文の概要: Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
- arxiv url: http://arxiv.org/abs/2408.03505v1
- Date: Wed, 7 Aug 2024 02:08:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 14:05:27.734850
- Title: Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
- Title(参考訳): Optimus: 気泡爆発による大規模マルチモードLDMトレーニングの高速化
- Authors: Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、大規模言語モデル(LLM)を複数のデータタイプに拡張した。
既存のシステムは、GPUバブルによるMLLMのトレーニングに非効率である。
本稿では,エンドツーエンドのMLLMトレーニング時間を短縮する分散MLLMトレーニングシステムOptimusを提案する。
- 参考スコア(独自算出の注目度): 10.76023087918934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have extended the success of large language models (LLMs) to multiple data types, such as image, text and audio, achieving significant performance in various domains, including multimodal translation, visual question answering and content generation. Nonetheless, existing systems are inefficient to train MLLMs due to substantial GPU bubbles caused by the heterogeneous modality models and complex data dependencies in 3D parallelism. This paper proposes Optimus, a distributed MLLM training system that reduces end-to-end MLLM training time. Optimus is based on our principled analysis that scheduling the encoder computation within the LLM bubbles can reduce bubbles in MLLM training. To make scheduling encoder computation possible for all GPUs, Optimus searches the separate parallel plans for encoder and LLM, and adopts a bubble scheduling algorithm to enable exploiting LLM bubbles without breaking the original data dependencies in the MLLM model architecture. We further decompose encoder layer computation into a series of kernels, and analyze the common bubble pattern of 3D parallelism to carefully optimize the sub-millisecond bubble scheduling, minimizing the overall training time. Our experiments in a production cluster show that Optimus accelerates MLLM training by 20.5%-21.3% with ViT-22B and GPT-175B model over 3072 GPUs compared to baselines.
- Abstract(参考訳): MLLM (Multimodal large language model) は、画像、テキスト、音声などの複数のデータ型に対して大きな言語モデル(LLM)の成功を拡大し、マルチモーダル翻訳、視覚的質問応答、コンテンツ生成など様々な領域で大きなパフォーマンスを実現している。
それにもかかわらず、既存のシステムは、不均一なモダリティモデルと3D並列性における複雑なデータ依存によって引き起こされるGPUバブルによるMLLMのトレーニングに非効率である。
本稿では,エンドツーエンドのMLLMトレーニング時間を短縮する分散MLLMトレーニングシステムOptimusを提案する。
Optimus は LLM バブル内のエンコーダ計算をスケジューリングすることで MLLM トレーニングにおけるバブルを低減できるという原理的な分析に基づいている。
全GPUでスケジューリング可能なエンコーダ計算を実現するために、OptimusはエンコーダとLLMの別々の並列プランを検索し、バブルスケジューリングアルゴリズムを採用し、MLLMモデルアーキテクチャにおける元のデータ依存関係を壊さずにLLMバブルを活用できるようにする。
さらに、エンコーダ層計算を一連のカーネルに分解し、3次元並列性の共通バブルパターンを分析し、ミリ秒以下のバブルスケジューリングを慎重に最適化し、全体的なトレーニング時間を最小化する。
実運用クラスタでの実験では,VT-22BおよびGPT-175Bモデルを用いたMLLMトレーニングを,ベースラインと比較して20.5%~21.3%高速化した。
関連論文リスト
- FBI-LLM: Scaling Up Fully Binarized LLMs from Scratch via Autoregressive Distillation [32.01836613286288]
この研究は、完全なビナライズされた大規模言語モデル(FBI-LLM)を提示する。
大規模なバイナリ言語モデルをスクラッチからトレーニングする方法を初めて示すものだ。
論文 参考訳(メタデータ) (2024-07-09T17:59:48Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization [9.517540904818986]
本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提案する。
11の異なるクラスタでのプロダクション推論ワークロードの実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
論文 参考訳(メタデータ) (2024-03-02T08:40:07Z) - Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs
for Embodied AI [10.82017289243097]
LLM(Large Language Models)は、事前訓練されたエンコーダを通じて様々な入力データモダリティを推論することができる。
m-LLMは、既存の最良のスキームと比較してタスクの精度を最大4%改善する。
論文 参考訳(メタデータ) (2023-12-13T04:08:59Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language
Models [106.65127123304842]
Branch-Train-Merge (BTM) は、大規模言語モデル(LLM)の並列トレーニングのための効率的なアルゴリズムである。
BTMは独立した専門家のLM(ELM)の集合を学習し、それぞれ異なるテキストドメインに特化している。
実験により、BTMはGPTスタイルのトランスフォーマーLMと比較して、ドメイン内および外部のパープレクティビティを改善することが示された。
論文 参考訳(メタデータ) (2022-08-05T17:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。