Fugu-MT 論文翻訳(概要): Understanding and Co-designing the Data Ingestion Pipeline for Industry-Scale RecSys Training

論文の概要: Understanding and Co-designing the Data Ingestion Pipeline for Industry-Scale RecSys Training

arxiv url: http://arxiv.org/abs/2108.09373v1
Date: Fri, 20 Aug 2021 21:09:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-25 12:42:41.767802
Title: Understanding and Co-designing the Data Ingestion Pipeline for Industry-Scale RecSys Training
Title（参考訳）: 産業用RecSysトレーニングにおけるデータ取り込みパイプラインの理解と共同設計
Authors: Mark Zhao, Niket Agarwal, Aarti Basant, Bugra Gedik, Satadru Pan, Mustafa Ozdal, Rakesh Komuravelli, Jerry Pan, Tianshu Bao, Haowei Lu, Sundaram Narayanan, Jack Langman, Kevin Wilfong, Harsha Rastogi, Carole-Jean Wu, Christos Kozyrakis, Parik Pol
Abstract要約: 本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
参考スコア（独自算出の注目度）: 5.058493679956239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The data ingestion pipeline, responsible for storing and preprocessing training data, is an important component of any machine learning training job. At Facebook, we use recommendation models extensively across our services. The data ingestion requirements to train these models are substantial. In this paper, we present an extensive characterization of the data ingestion challenges for industry-scale recommendation model training. First, dataset storage requirements are massive and variable; exceeding local storage capacities. Secondly, reading and preprocessing data is computationally expensive, requiring substantially more compute, memory, and network resources than are available on trainers themselves. These demands result in drastically reduced training throughput, and thus wasted GPU resources, when current on-trainer preprocessing solutions are used. To address these challenges, we present a disaggregated data ingestion pipeline. It includes a central data warehouse built on distributed storage nodes. We introduce Data PreProcessing Service (DPP), a fully disaggregated preprocessing service that scales to hundreds of nodes, eliminating data stalls that can reduce training throughput by 56%. We implement important optimizations across storage and DPP, increasing storage and preprocessing throughput by 1.9x and 2.3x, respectively, addressing the substantial power requirements of data ingestion. We close with lessons learned and cover the important remaining challenges and opportunities surrounding data ingestion at scale.
Abstract（参考訳）: トレーニングデータの保存と前処理を担当するデータ取り込みパイプラインは、あらゆる機械学習トレーニングジョブの重要なコンポーネントである。 facebookでは、サービス全体でレコメンデーションモデルを幅広く使用しています。これらのモデルをトレーニングするためのデータ取り込み要件はかなり大きい。本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題の広範な特徴について述べる。まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。これらの要求はトレーニングスループットを大幅に削減し、現在のトレーニング前処理ソリューションを使用するとGPUリソースを浪費する。これらの課題に対処するため、データ取り込みパイプラインを分解する。分散ストレージノード上に構築された中央データウェアハウスが含まれている。データプリプロセッシングサービス(data pre processing service, dpp)は、数百のノードにスケール可能な、完全に分散したプリプロセッシングサービスで、トレーニングスループットを56%削減できるデータストールを排除します。我々はストレージとDPPをまたいだ重要な最適化を行い、ストレージと前処理のスループットをそれぞれ1.9倍と2.3倍に向上させ、データ取り込みの実質的な電力要求に対処する。私たちは学んだ教訓に近づき、大規模なデータ取り込みを取り巻く重要な課題と機会を取り上げます。

関連論文リスト

A Two-Stage Data Selection Framework for Data-Efficient Model Training on Edge Devices [18.853357902416832]
現在のオンデバイスモデルのトレーニングは、低いトレーニングスループット、限られたストレージ、さまざまなデータの重要性によって妨げられています。モデル学習のためのストリーミングデータから,最も重要なデータバッチを選択するための2段階データ選択フレームワークであるsf Titanを提案する。 sf Titanは、トレーニング時間の最大43%の削減と、マイナーシステムのオーバーヘッドを伴う最終的な精度の6.2%の向上を実現している。
論文参考訳（メタデータ） (2025-05-22T11:53:48Z)
OVERLORD: Ultimate Scaling of DataLoader for Multi-Source Large Foundation Model Training [17.215899004049778]
産業レベルの分散データロードアーキテクチャであるOVERLORDを3つのイノベーションで紹介する。 OVERLORDは、(1)エンドツーエンドのトレーニングスループットの改善、(2)CPUメモリ使用量の最低3.6倍の削減を実現している。
論文参考訳（メタデータ） (2025-04-14T03:31:22Z)
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-09T08:27:27Z)
RINAS: Training with Dataset Shuffling Can Be General and Fast [2.485503195398027]
RINASは、グローバルシャッフルデータセットをロードする際のパフォーマンスボトルネックに対処するデータローディングフレームワークである。 We implement RINAS under the PyTorch framework for common dataset library HuggingFace and TorchVision。実験の結果,RINASは汎用言語モデルトレーニングと視覚モデルトレーニングのスループットを最大59%,視力モデルトレーニングは89%向上した。
論文参考訳（メタデータ） (2023-12-04T21:50:08Z)
Fast Machine Unlearning Without Retraining Through Selective Synaptic Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文参考訳（メタデータ） (2023-08-15T11:30:45Z)
Understand Data Preprocessing for Effective End-to-End Training of Deep Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文参考訳（メタデータ） (2023-04-18T11:57:38Z)
How Much More Data Do I Need? Estimating Requirements for Downstream Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か? データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文参考訳（メタデータ） (2022-07-04T21:16:05Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文参考訳（メタデータ） (2020-04-21T14:19:48Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。