Fugu-MT 論文翻訳(概要): OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training

論文の概要: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training

arxiv url: http://arxiv.org/abs/2504.09844v2
Date: Sun, 18 May 2025 15:39:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 17:08:52.647893
Title: OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training
Title（参考訳）: OVERLORD: マルチソース大規模モデルトレーニングのためのDataLoaderの究極のスケーリング
Authors: Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Shibiao Nong, Yanghua Peng, Haibin Lin, Xin Liu, Chuan Wu,
Abstract要約: 大規模基盤モデル(LFM)をトレーニングするための現代的なフレームワークでは、データ並列方式でデータローダを採用している。本稿では,産業用分散データロードアーキテクチャであるOmniloadについて述べる。
参考スコア（独自算出の注目度）: 16.91538022228882
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern frameworks for training large foundation models (LFMs) employ dataloaders in a data-parallel manner, with each loader processing a disjoint subset of training data. Under multisource preprocessing, two fundamental challenges exist. First, due to the quadratic computational complexity of the attention operator, the non-uniform sample distribution over data-parallel ranks leads to significant workload imbalance among dataloaders, degrading the training efficiency. Second, supporting diverse data sources requires per-dataset file access states that are redundantly replicated across parallel loaders, consuming excessive memory. This also hinders dynamic data mixing (e.g., curriculum learning) and causes redundant access/memory overhead in hybrid parallelism. We present Omniload, an industrial-grade distributed data loading architecture for LFMs, with four innovations: (1) Disaggregated data preprocessing via role-specific actors (Source Loaders/Data Constructors) to eliminate source and parallelism redundant data access and ensure multisource scalability. (2) Centralized and declarative data plane for elastic multisource orchestration, such as long-short context, multimodality, and curriculum learning. (3) Multi-level auto-partitioning and scaling mechanism for source loaders under heterogeneous preprocessing costs. (4) Shadow loaders with differential checkpointing for fault recovery without workflow interruption. Deployed on production clusters scaling to multi-thousand GPUs, Omniload achieves: (1) 4.5x end-to-end training throughput improvement, (2) 13.5x reduction in CPU memory usage.
Abstract（参考訳）: 大規模ファンデーションモデル(LFM)をトレーニングするための現代的なフレームワークは、データ-並列方式でデータローダを使用し、各ローダはトレーニングデータの非結合サブセットを処理する。マルチソース前処理では、2つの根本的な課題が存在する。第一に、アテンション演算子の2次計算複雑性のため、データ並列ランクの非均一なサンプル分布は、データローダ間でかなりの負荷不均衡をもたらし、トレーニング効率を低下させる。第二に、多様なデータソースをサポートするには、並列ローダ間で冗長に複製されるデータセット毎のファイルアクセス状態が必要で、過剰なメモリを消費する。これはまた、動的データ混合(例えばカリキュラム学習)を阻害し、ハイブリッド並列性において冗長なアクセス/メモリオーバーヘッドを引き起こす。 1) ロール固有のアクタ(ソースローダ/データコンストラクタ)による非集約データプリプロセッシングにより、ソースと並列性が冗長なデータアクセスを排除し、マルチソースのスケーラビリティを確保する。 2) 長期的コンテキスト,マルチモーダリティ,カリキュラム学習など,弾力性のあるマルチソースオーケストレーションのための集中型・宣言型データプレーン。 (3)異種前処理コスト下でのソースローダのマルチレベル自動分割・スケーリング機構 (4)ワークフロー中断のない障害復旧のための差分チェックポイント付きシャドウローダ。 Omniloadは、プロダクションクラスタのスケールアップとGPUへのデプロイにより、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の13.5倍削減を実現している。

関連論文リスト

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文参考訳（メタデータ） (2025-07-02T12:45:34Z)
Multi-task parallelism for robust pre-training of graph foundation models on multi-source, multi-fidelity atomistic modeling data [4.3387776186428]
グラフニューラルネットワークを用いたグラフ基盤モデルは、持続的で効率的な原子論的モデリングを約束する。プレトレーニング中のマルチソース・マルチ忠実データ処理の課題に対処するために、近年の研究ではマルチタスク学習を採用している。本稿では,GPUアクセラレーションを用いたマルチタスク並列化手法を提案する。
論文参考訳（メタデータ） (2025-06-26T22:04:05Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
A Theoretical Framework for Data Efficient Multi-Source Transfer Learning Based on Cramér-Rao Bound [16.49737340580437]
対象モデルを共同でトレーニングするために、各ソースタスクから必要なソースサンプルの最適な量は何か? 具体的には、クロスエントロピー損失と整合する一般化誤差尺度を導入し、Cram'er-Rao界に基づいて最小化して、各ソースタスクの最適な転送量を決定する。我々はアーキテクチャに依存しないデータ効率のアルゴリズムOTQMSを開発し、深層多元移動学習モデルの学習のための理論的結果を実装した。
論文参考訳（メタデータ） (2025-02-06T17:32:49Z)
The Streaming Batch Model for Efficient and Fault-Tolerant Heterogeneous Execution [20.926218346718482]
本稿では, 効率的かつフォールトトレラントなヘテロジニアス実行を可能にする2つのモデルのハイブリッドであるストリーミングバッチモデルを紹介する。我々は、従来のバッチ処理やストリーム処理システムと比較して、異種バッチ推論パイプラインのスループットを3～8$timesで改善するストリーミングバッチモデルの実装であるRay Dataを紹介する。
論文参考訳（メタデータ） (2025-01-16T19:54:01Z)
Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文参考訳（メタデータ） (2024-12-10T20:01:53Z)
SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
cedar: Optimized and Unified Machine Learning Input Data Pipelines [2.0375440421573843]
cedarは、機械学習入力データパイプラインのための最適化された統一プログラミングフレームワークである。 cedarは、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。 cedarは、最先端の入力データシステムと比較して、パフォーマンスを最大1.87倍から10.65倍改善する。
論文参考訳（メタデータ） (2024-01-17T00:36:58Z)
Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文参考訳（メタデータ） (2023-12-08T19:26:13Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report [0.7349727826230862]
この作業は、PyTorch Frameworkのデータロードパイプラインに焦点を当てている。画像などの多数のファイルのロードを伴う分類タスクでは、トレーニングウォールタイムが大幅に改善できることが示される。新たに修正したConcurrentDataloaderを使えば、GPU使用率の改善や、バッチ読み込み時間の最大12倍の大幅な削減が可能になります。
論文参考訳（メタデータ） (2022-11-09T14:16:30Z)
An Overview of the Data-Loader Landscape: Comparative Performance Analysis [6.913175606212201]
データローダは、トレーニングジョブのパフォーマンスを大幅に改善する鍵を握るかもしれません。最近の進歩は、トレーニング時間を大幅に短縮するだけでなく、S3のようなリモートストレージからデータをロードするといった新機能を提供することによって、約束されている。
論文参考訳（メタデータ） (2022-09-27T21:40:56Z)
Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文参考訳（メタデータ） (2021-12-11T08:05:11Z)
Deep Transfer Learning for Multi-source Entity Linkage via Domain Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。 AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文参考訳（メタデータ） (2021-10-27T15:20:41Z)
Multi-modal AsynDGAN: Learn From Distributed Medical Image Data without Sharing Private Information [55.866673486753115]
プライバシーとセキュリティを守るために拡張可能で弾力性のある学習フレームワークを提案します。提案するフレームワークは分散Asynchronized Discriminator Generative Adrial Networks (AsynDGAN) である。
論文参考訳（メタデータ） (2020-12-15T20:41:24Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。