論文の概要: A case for disaggregation of ML data processing
- arxiv url: http://arxiv.org/abs/2210.14826v1
- Date: Wed, 26 Oct 2022 16:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 16:00:13.581640
- Title: A case for disaggregation of ML data processing
- Title(参考訳): MLデータ処理の非集約化の1例
- Authors: Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa and
Chandramohan A. Thekkath
- Abstract要約: 本稿では,tf.data上に構築された非集約型入力データ処理サービスであるtf.dataについて述べる。
データを水平スケーリングすることで,入力ボトルネックの解消,最大110倍の高速化,最大89倍のジョブコスト削減を実現している。
- 参考スコア(独自算出の注目度): 3.042407943572585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) computation requires feeding input data for the models
to ingest. Traditionally, input data processing happens on the same host as the
ML computation. The input data processing can however become a bottleneck of
the ML computation if there are insufficient resources to process data quickly
enough. This slows down the ML computation and wastes valuable and scarce ML
hardware (e.g. GPUs and TPUs) used by the ML computation.
In this paper, we present tf.data service, a disaggregated input data
processing service built on top of tf.data. Our work goes beyond describing the
design and implementation of a new system which disaggregates preprocessing
from ML computation and presents: (1) empirical evidence based on production
workloads for the need of disaggregation, as well as quantitative evaluation of
the impact disaggregation has on the performance and cost of production
workloads, (2) benefits of disaggregation beyond horizontal scaling, (3)
analysis of tf.data service's adoption at Google, the lessons learned during
building and deploying the system and potential future lines of research opened
up by our work.
We demonstrate that horizontally scaling data processing using tf.data
service helps remove input bottlenecks, achieving speedups of up to 110x and
job cost reductions of up to 89x. We further show that tf.data service can
support computation reuse through data sharing across ML jobs with identical
data processing pipelines (e.g. hyperparameter tuning jobs), incurring no
performance penalty and reducing overall resource cost. Finally, we show that
tf.data service advanced features can benefit performance of non-input bound
jobs; in particular, coordinated data reads through tf.data service can yield
up to 2x speedups and job cost savings for NLP jobs.
- Abstract(参考訳): 機械学習(ml)計算は、モデルが取り込むための入力データを供給する必要がある。
従来、入力データ処理はML計算と同じホスト上で行われる。
しかし、データを処理するリソースが十分に不足している場合、入力データ処理はml計算のボトルネックとなる可能性がある。
これにより、ML計算の速度が低下し、ML計算で使用されるMLハードウェア(GPUやTPUなど)が不足する。
本稿では,tf.data上に構築した分散入力データ処理サービスであるtf.data serviceを提案する。
Our work goes beyond describing the design and implementation of a new system which disaggregates preprocessing from ML computation and presents: (1) empirical evidence based on production workloads for the need of disaggregation, as well as quantitative evaluation of the impact disaggregation has on the performance and cost of production workloads, (2) benefits of disaggregation beyond horizontal scaling, (3) analysis of tf.data service's adoption at Google, the lessons learned during building and deploying the system and potential future lines of research opened up by our work.
データを水平スケーリングすることで,入力ボトルネックの解消,最大110倍の高速化,最大89倍のジョブコスト削減を実現している。
さらに、tf.dataサービスは、同じデータ処理パイプライン(ハイパーパラメータチューニングジョブなど)でMLジョブ間のデータ共有を通じて、計算再利用をサポートし、パフォーマンスのペナルティを発生せず、全体のリソースコストを削減できることを示す。
最後に、tf.data service advanced featuresが非入力バウンドジョブのパフォーマンスを向上させることを示し、特にtf.data serviceによるコーディネートされたデータ読み込みは最大2倍のスピードアップとnlpジョブのジョブコスト削減をもたらす。
関連論文リスト
- TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。
socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。
評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-27T13:39:47Z) - Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。
本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文 参考訳(メタデータ) (2022-10-16T22:28:36Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文 参考訳(メタデータ) (2021-01-28T17:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。