論文の概要: MinatoLoader: Accelerating Machine Learning Training Through Efficient Data Preprocessing
- arxiv url: http://arxiv.org/abs/2509.10712v1
- Date: Fri, 12 Sep 2025 22:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.747661
- Title: MinatoLoader: Accelerating Machine Learning Training Through Efficient Data Preprocessing
- Title(参考訳): MinatoLoader: 効率的なデータ前処理による機械学習トレーニングの高速化
- Authors: Rahma Nouaji, Stella Bitchebe, Ricardo Macedo, Oana Balmau,
- Abstract要約: MinatoLoaderはPyTorch用の汎用データローダで、トレーニングを加速し、GPU使用率を改善する。
高速な前処理サンプルを優先し、遅いサンプルを並列に処理する。
これは、PyTorch DataLoaderとPecanよりも7.5times$(平均3.6times$)、DALIよりも3times$(2.2times$)まで、幅広いワークロードのトレーニング時間を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data loaders are used by Machine Learning (ML) frameworks like PyTorch and TensorFlow to apply transformations to data before feeding it into the accelerator. This operation is called data preprocessing. Data preprocessing plays an important role in the ML training workflow because if it is inefficiently pipelined with the training, it can yield high GPU idleness, resulting in important training delays. Unfortunately, existing data loaders turn out to waste GPU resources, with $76\%$ GPU idleness when using the PyTorch data loader, for example. One key source of inefficiency is the variability in preprocessing time across samples within the same dataset. Existing data loaders are oblivious to this variability, and they construct batches without any consideration of slow or fast samples. In this case, the entire batch is delayed by a single slow sample, stalling the training pipeline and resulting in head-of-line blocking. To address these inefficiencies, we present MinatoLoader, a general-purpose data loader for PyTorch that accelerates training and improves GPU utilization. MinatoLoader is designed for a single-server setup, containing multiple GPUs. It continuously prepares data in the background and actively constructs batches by prioritizing fast-to-preprocess samples, while slower samples are processed in parallel. We evaluate MinatoLoader on servers with V100 and A100 GPUs. On a machine with four A100 GPUs, MinatoLoader improves the training time of a wide range of workloads by up to $7.5\times$ ($3.6\times$ on average) over PyTorch DataLoader and Pecan, and up to $3\times$ ($2.2\times$ on average) over DALI. It also increases average GPU utilization from 46.4\% with PyTorch to 90.45\%, while preserving model accuracy and enabling faster convergence.
- Abstract(参考訳): データローダは、PyTorchやTensorFlowといった機械学習(ML)フレームワークによって、アクセラレータに入力する前にデータに変換を適用するために使用される。
この操作はデータ前処理と呼ばれる。
データ前処理は、機械学習のトレーニングワークフローにおいて重要な役割を担っている。
残念ながら、既存のデータローダは、例えばPyTorchデータローダを使用すると、GPUリソースを無駄にしてしまう。
不効率の重要な原因の1つは、同じデータセット内のサンプル間での事前処理における可変性である。
既存のデータローダは、この可変性には不適であり、遅いサンプルや速いサンプルを考慮せずにバッチを構築する。
この場合、バッチ全体が単一の遅いサンプルによって遅延し、トレーニングパイプラインが停止し、ヘッド・オブ・ラインのブロッキングが発生します。
これらの非効率性に対処するために、PyTorch用の汎用データローダであるMinatoLoaderを紹介します。
MinatoLoaderはシングルサーバのセットアップ用に設計されており、複数のGPUを含んでいる。
バックグラウンドでデータを継続的に準備し、高速な前処理サンプルを優先順位付けし、遅いサンプルを並列に処理することで、バッチを積極的に構築する。
我々は、V100とA100 GPUのサーバ上でMinatoLoaderを評価する。
4つのA100 GPUを持つマシンでは、MinatoLoaderは、PyTorch DataLoaderとPecanよりも7.5\times$(平均3.6\times$)、DALIよりも3\times$(2.2\times$)まで、幅広いワークロードのトレーニング時間を改善している。
また、PyTorchでの平均GPU使用率を46.4\%から90.45\%に引き上げ、モデルの精度を保ち、より高速な収束を可能にする。
関連論文リスト
- TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。
本稿では,同時学習プロセスで同じデータローダを共有できるようにすることにより,トレーニングの計算的ニーズを低減するためにSocketを提案する。
評価の結果,データ共有なしでは実現不可能なシナリオを実現し,トレーニングスループットを最大100%向上し,クラウドインスタンスを利用する場合,コストを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-09-27T13:39:47Z) - Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - FFCV: Accelerating Training by Removing Data Bottlenecks [84.89623507733963]
本稿では,機械学習モデルトレーニングを容易かつ高速に行うためのライブラリであるFFCVを紹介する。
トレーニングプロセスから(しばしば微妙な)データのボトルネックを取り除くことで、モデルトレーニングを高速化する。
詳細なインストール手順、ドキュメンテーション、Slackサポートチャネルはhttps://ffcv.io/.com/で公開されている。
論文 参考訳(メタデータ) (2023-06-21T19:06:41Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - MOGPTK: The Multi-Output Gaussian Process Toolkit [71.08576457371433]
ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。
このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。
論文 参考訳(メタデータ) (2020-02-09T23:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。