論文の概要: Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training
- arxiv url: http://arxiv.org/abs/2108.09373v1
- Date: Fri, 20 Aug 2021 21:09:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 12:42:41.767802
- Title: Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training
- Title(参考訳): 産業用RecSysトレーニングにおけるデータ取り込みパイプラインの理解と共同設計
- Authors: Mark Zhao, Niket Agarwal, Aarti Basant, Bugra Gedik, Satadru Pan,
Mustafa Ozdal, Rakesh Komuravelli, Jerry Pan, Tianshu Bao, Haowei Lu,
Sundaram Narayanan, Jack Langman, Kevin Wilfong, Harsha Rastogi, Carole-Jean
Wu, Christos Kozyrakis, Parik Pol
- Abstract要約: 本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
- 参考スコア(独自算出の注目度): 5.058493679956239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The data ingestion pipeline, responsible for storing and preprocessing
training data, is an important component of any machine learning training job.
At Facebook, we use recommendation models extensively across our services. The
data ingestion requirements to train these models are substantial. In this
paper, we present an extensive characterization of the data ingestion
challenges for industry-scale recommendation model training. First, dataset
storage requirements are massive and variable; exceeding local storage
capacities. Secondly, reading and preprocessing data is computationally
expensive, requiring substantially more compute, memory, and network resources
than are available on trainers themselves. These demands result in drastically
reduced training throughput, and thus wasted GPU resources, when current
on-trainer preprocessing solutions are used. To address these challenges, we
present a disaggregated data ingestion pipeline. It includes a central data
warehouse built on distributed storage nodes. We introduce Data PreProcessing
Service (DPP), a fully disaggregated preprocessing service that scales to
hundreds of nodes, eliminating data stalls that can reduce training throughput
by 56%. We implement important optimizations across storage and DPP, increasing
storage and preprocessing throughput by 1.9x and 2.3x, respectively, addressing
the substantial power requirements of data ingestion. We close with lessons
learned and cover the important remaining challenges and opportunities
surrounding data ingestion at scale.
- Abstract(参考訳): トレーニングデータの保存と前処理を担当するデータ取り込みパイプラインは、あらゆる機械学習トレーニングジョブの重要なコンポーネントである。
facebookでは、サービス全体でレコメンデーションモデルを幅広く使用しています。
これらのモデルをトレーニングするためのデータ取り込み要件はかなり大きい。
本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題の広範な特徴について述べる。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
これらの要求はトレーニングスループットを大幅に削減し、現在のトレーニング前処理ソリューションを使用するとGPUリソースを浪費する。
これらの課題に対処するため、データ取り込みパイプラインを分解する。
分散ストレージノード上に構築された中央データウェアハウスが含まれている。
データプリプロセッシングサービス(data pre processing service, dpp)は、数百のノードにスケール可能な、完全に分散したプリプロセッシングサービスで、トレーニングスループットを56%削減できるデータストールを排除します。
我々はストレージとDPPをまたいだ重要な最適化を行い、ストレージと前処理のスループットをそれぞれ1.9倍と2.3倍に向上させ、データ取り込みの実質的な電力要求に対処する。
私たちは学んだ教訓に近づき、大規模なデータ取り込みを取り巻く重要な課題と機会を取り上げます。
関連論文リスト
- Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - RINAS: Training with Dataset Shuffling Can Be General and Fast [2.485503195398027]
RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。
We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。
実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
論文 参考訳(メタデータ) (2023-12-04T21:50:08Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Understand Data Preprocessing for Effective End-to-End Training of Deep
Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。
我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文 参考訳(メタデータ) (2023-04-18T11:57:38Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。
データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。
本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T14:19:48Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。