論文の概要: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
- arxiv url: http://arxiv.org/abs/2504.09844v1
- Date: Mon, 14 Apr 2025 03:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 23:51:04.971416
- Title: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
- Title(参考訳): OVERLORD: マルチソース大規模モデルトレーニングのためのDataLoaderの究極のスケーリング
- Authors: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu,
- Abstract要約: 産業レベルの分散データロードアーキテクチャであるOVERLORDを3つのイノベーションで紹介する。
OVERLORDは、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の最低3.6倍の削減を実現している。
- 参考スコア(独自算出の注目度): 17.215899004049778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern frameworks for training large foundation models (LFMs) employ data loaders in a data parallel paradigm. While this design offers implementation simplicity, it introduces two fundamental challenges. First, due to the quadratic computational complexity of the attention operator, the non-uniform sample distribution over data-parallel ranks leads to a significant workload imbalance among loaders, which degrades the training efficiency. This paradigm also impedes the implementation of data mixing algorithms (e.g., curriculum learning) over different datasets. Second, to acquire a broad range of capability, LFMs training ingests data from diverse sources, each with distinct file access states. Colocating massive datasets within loader instances can easily exceed local pod memory capacity. Additionally, heavy sources with higher transformation latency require larger worker pools, further exacerbating memory consumption. We present OVERLORD, an industrial-grade distributed data loading architecture with three innovations: (1) A centralized and declarative data plane, which facilitates elastic data orchestration strategy, such as long-short context, multimodal, and curriculum learning; (2) Disaggregated multisource preprocessing through role-specific actors, i.e., Source Loaders and Data Constructors, leveraging autoscaling for Source Loaders towards heterogeneous and evolving source preprocessing cost; (3) Shadow Loaders with differential checkpointing for uninterrupted fault recovery. Deployed on production clusters scaling to multi-thousand GPU, OVERLORD achieves: (1) 4.5x end-to-end training throughput improvement, (2) a minimum 3.6x reduction in CPU memory usage, with further improvements to be added in later experiments.
- Abstract(参考訳): 大規模基盤モデル(LFM)をトレーニングするための現代的なフレームワークでは、データ並列パラダイムにデータローダが採用されている。
この設計は実装の単純さを提供するが、基本的な課題は2つある。
第一に、アテンション演算子の2次計算複雑性のため、データ並列ランクの非均一なサンプル分布はローダ間でかなりの負荷不均衡をもたらし、トレーニング効率を低下させる。
このパラダイムは、異なるデータセットに対するデータ混合アルゴリズム(例えば、カリキュラム学習)の実装を阻害する。
第2に、幅広い能力を得るために、LFMトレーニングは、異なるファイルアクセス状態を持つ様々なソースからデータを取り込みます。
ローダインスタンス内の大規模なデータセットの共有は、ローカルポッドメモリ容量を容易に越えることができる。
さらに、トランスフォーメーションレイテンシの高い重いソースでは、ワーカープールが大きくなり、メモリ消費がさらに悪化する。
我々は,(1)長短コンテキスト,マルチモーダル,カリキュラム学習などの弾力性のあるデータオーケストレーション戦略を促進する集中型・宣言型データプレーン,(2)ソースローダとデータコンストラクタによる分散マルチソース前処理,(2)ソースローダのオートスケーリングを異質で進化的なソース前処理コストに活用する,(3)非破壊的障害回復のための差分チェックポイントを備えたシャドウローダ,という3つのイノベーションを,産業レベルの分散データロードアーキテクチャであるOVERLORDを提案する。
OVERLORDは、プロダクションクラスタのスケールアップとGPUへのデプロイにより、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の最低3.6倍の削減、およびその後の実験でさらなる改善を実現している。
関連論文リスト
- StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か?
具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。
我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文 参考訳(メタデータ) (2025-02-06T17:32:49Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - cedar: Optimized and Unified Machine Learning Input Data Pipelines [2.0375440421573843]
cedarは、機械学習入力データパイプラインのための最適化された統一プログラミングフレームワークである。
cedarは、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
cedarは、最先端の入力データシステムと比較して、パフォーマンスを最大1.87倍から10.65倍改善する。
論文 参考訳(メタデータ) (2024-01-17T00:36:58Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Profiling and Improving the PyTorch Dataloader for high-latency Storage:
A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。
画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。
新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文 参考訳(メタデータ) (2022-11-09T14:16:30Z) - An Overview of the Data-Loader Landscape: Comparative Performance
Analysis [6.913175606212201]
データローダは、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握るかもしれません。
最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
論文 参考訳(メタデータ) (2022-09-27T21:40:56Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。