論文の概要: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
- arxiv url: http://arxiv.org/abs/2504.09844v2
- Date: Sun, 18 May 2025 15:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 17:08:52.647893
- Title: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
- Title(参考訳): OVERLORD: マルチソース大規模モデルトレーニングのためのDataLoaderの究極のスケーリング
- Authors: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Shibiao Nong, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu,
- Abstract要約: 大規模基盤モデル(LFM)をトレーニングするための現代的なフレームワークでは、データ並列方式でデータローダを採用している。
本稿では,産業用分散データロードアーキテクチャであるOmniloadについて述べる。
- 参考スコア(独自算出の注目度): 16.91538022228882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern frameworks for training large foundation models (LFMs) employ dataloaders in a data-parallel manner, with each loader processing a disjoint subset of training data. Under multisource preprocessing, two fundamental challenges exist. First, due to the quadratic computational complexity of the attention operator, the non-uniform sample distribution over data-parallel ranks leads to significant workload imbalance among dataloaders, degrading the training efficiency. Second, supporting diverse data sources requires per-dataset file access states that are redundantly replicated across parallel loaders, consuming excessive memory. This also hinders dynamic data mixing (e.g., curriculum learning) and causes redundant access/memory overhead in hybrid parallelism. We present Omniload, an industrial-grade distributed data loading architecture for LFMs, with four innovations: (1) Disaggregated data preprocessing via role-specific actors (Source Loaders/Data Constructors) to eliminate source and parallelism redundant data access and ensure multisource scalability. (2) Centralized and declarative data plane for elastic multisource orchestration, such as long-short context, multimodality, and curriculum learning. (3) Multi-level auto-partitioning and scaling mechanism for source loaders under heterogeneous preprocessing costs. (4) Shadow loaders with differential checkpointing for fault recovery without workflow interruption. Deployed on production clusters scaling to multi-thousand GPUs, Omniload achieves: (1) 4.5x end-to-end training throughput improvement, (2) 13.5x reduction in CPU memory usage.
- Abstract(参考訳): 大規模ファンデーションモデル(LFM)をトレーニングするための現代的なフレームワークは、データ-並列方式でデータローダを使用し、各ローダはトレーニングデータの非結合サブセットを処理する。
マルチソース前処理では、2つの根本的な課題が存在する。
第一に、アテンション演算子の2次計算複雑性のため、データ並列ランクの非均一なサンプル分布は、データローダ間でかなりの負荷不均衡をもたらし、トレーニング効率を低下させる。
第二に、多様なデータソースをサポートするには、並列ローダ間で冗長に複製されるデータセット毎のファイルアクセス状態が必要で、過剰なメモリを消費する。
これはまた、動的データ混合(例えばカリキュラム学習)を阻害し、ハイブリッド並列性において冗長なアクセス/メモリオーバーヘッドを引き起こす。
1) ロール固有のアクタ(ソースローダ/データコンストラクタ)による非集約データプリプロセッシングにより、ソースと並列性が冗長なデータアクセスを排除し、マルチソースのスケーラビリティを確保する。
2) 長期的コンテキスト,マルチモーダリティ,カリキュラム学習など,弾力性のあるマルチソースオーケストレーションのための集中型・宣言型データプレーン。
(3)異種前処理コスト下でのソースローダのマルチレベル自動分割・スケーリング機構
(4)ワークフロー中断のない障害復旧のための差分チェックポイント付きシャドウローダ。
Omniloadは、プロダクションクラスタのスケールアップとGPUへのデプロイにより、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の13.5倍削減を実現している。
関連論文リスト
- StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か?
具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。
我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文 参考訳(メタデータ) (2025-02-06T17:32:49Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - cedar: Optimized and Unified Machine Learning Input Data Pipelines [2.0375440421573843]
cedarは、機械学習入力データパイプラインのための最適化された統一プログラミングフレームワークである。
cedarは、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
cedarは、最先端の入力データシステムと比較して、パフォーマンスを最大1.87倍から10.65倍改善する。
論文 参考訳(メタデータ) (2024-01-17T00:36:58Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Profiling and Improving the PyTorch Dataloader for high-latency Storage:
A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。
画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。
新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文 参考訳(メタデータ) (2022-11-09T14:16:30Z) - An Overview of the Data-Loader Landscape: Comparative Performance
Analysis [6.913175606212201]
データローダは、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握るかもしれません。
最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
論文 参考訳(メタデータ) (2022-09-27T21:40:56Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without
Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。
提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文 参考訳(メタデータ) (2020-12-15T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。