Fugu-MT 論文翻訳(概要): tf.data service: A Case for Disaggregating ML Input Data Processing

論文の概要: tf.data service: A Case for Disaggregating ML Input Data Processing

arxiv url: http://arxiv.org/abs/2210.14826v3
Date: Tue, 2 Jan 2024 15:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 20:26:52.423479
Title: tf.data service: A Case for Disaggregating ML Input Data Processing
Title（参考訳）: tf.dataサービス:ML入力データ処理の分離事例
Authors: Andrew Audibert, Yang Chen, Dan Graur, Ana Klimovic, Jiri Simsa and Chandramohan A. Thekkath
Abstract要約: 機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。 tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
参考スコア（独自算出の注目度）: 4.851146762916078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) computations commonly execute on expensive specialized hardware, such as GPUs and TPUs, which provide high FLOPs and performance-per-watt. For cost efficiency, it is essential to keep these accelerators highly utilized. This requires preprocessing input data at the rate at which the accelerators can ingest and perform ML computations on the data. To avoid data stalls, the host CPU and RAM required for input data processing per accelerator core used for ML computations varies across jobs. Hence, the traditional approach of processing input data on ML accelerator hosts with a fixed hardware ratio leads to either under-utilizing the accelerators or the host CPU and RAM. In this paper, we address these concerns by building a disaggregated ML data processing system. We present tf.data service, an open-source disaggregated input data processing service built on top of tf.data in TensorFlow. We show that disaggregating data preprocessing has three key advantages for large-scale ML training jobs. First, the service can horizontally scale-out to right-size CPU/RAM host resources for data processing in each job, saving 32x training time and 26x cost, on average. Second, the service can share ephemeral preprocessed data results across jobs, to optimize CPU usage and reduce redundant computations. Finally, the service supports coordinated reads, a technique that avoids stragglers due to different input sizes in distributed training, reducing training time by 2.2x, on average. Our design is inspired by lessons learned from deploying tf.data service in production, including relaxing data visitation guarantees without impacting model accuracy.
Abstract（参考訳）: 機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。コスト効率のためには、これらの加速器を高度に活用することが不可欠である。これは、アクセラレーターがデータ上でML計算を取り込み実行できる速度で入力データを前処理する必要がある。データ停止を避けるため、ML計算に使用されるアクセラレータコア毎のデータ処理に必要なホストCPUとRAMはジョブによって異なる。したがって、MLアクセラレーターホストの入力データを固定ハードウェア比で処理する従来のアプローチは、アクセラレーターを過小評価するか、ホストCPUとRAMを運用する。本稿では,分散MLデータ処理システムを構築することで,これらの問題に対処する。 tf.data serviceは、tensorflowのtf.data上に構築された、オープンソースの分散入力データ処理サービスです。データ前処理の分離は大規模なMLトレーニングジョブにおいて3つの大きな利点があることを示す。まず、各ジョブのデータ処理のための右サイズのCPU/RAMホストリソースに水平スケールアウトでき、平均32倍のトレーニング時間と26倍のコストを節約できる。第2に、ジョブ間で一時的な事前処理されたデータ結果を共有することで、CPU使用率の最適化と冗長な計算の削減が可能になる。最後にこのサービスでは、分散トレーニングにおける入力サイズの違いによるストラグラーの回避、平均2.2倍のトレーニング時間を削減したコーディネートド読み取りをサポートする。私たちの設計は、tf.dataサービスの本番環境へのデプロイから学んだ教訓にインスパイアされています。

関連論文リスト

Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。 socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
論文参考訳（メタデータ） (2024-09-27T13:39:47Z)
Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。 Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。 Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文参考訳（メタデータ） (2024-09-23T11:07:57Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。本研究では,データ分析エージェントであるData-Copilotを提案する。
論文参考訳（メタデータ） (2023-06-12T16:12:56Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Accelerating Transfer Learning with Near-Data Computation on Cloud Object Stores [4.774170751209782]
我々は、転送学習(TL)に着目して、MLトレーニングがストレージのプッシュダウンにどう影響するかを示す。本稿では,分解に伴う課題に対処する2つの補完技術を中心に,新たなTL処理システムであるHAPIを提案する。
論文参考訳（メタデータ） (2022-10-16T22:28:36Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文参考訳（メタデータ） (2021-01-28T17:16:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。