論文の概要: Efficient Tabular Data Preprocessing of ML Pipelines
- arxiv url: http://arxiv.org/abs/2409.14912v1
- Date: Mon, 23 Sep 2024 11:07:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 15:26:12.913931
- Title: Efficient Tabular Data Preprocessing of ML Pipelines
- Title(参考訳): MLパイプラインの効率的なタブラルデータ前処理
- Authors: Yu Zhu, Wenqi Jiang, Gustavo Alonso,
- Abstract要約: データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
- 参考スコア(独自算出の注目度): 9.23424733090734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data preprocessing pipelines, which includes data decoding, cleaning, and transforming, are a crucial component of Machine Learning (ML) training. Thy are computationally intensive and often become a major bottleneck, due to the increasing performance gap between the CPUs used for preprocessing and the GPUs used for model training. Recent studies show that a significant number of CPUs across several machines are required to achieve sufficient throughput to saturate the GPUs, leading to increased resource and energy consumption. When the pipeline involves vocabulary generation, the preprocessing performance scales poorly due to significant row-wise synchronization overhead between different CPU cores and servers. To address this limitation, in this paper we present the design of Piper, a hardware accelerator for tabular data preprocessing, prototype it on FPGAs, and demonstrate its potential for training pipelines of commercial recommender systems. Piper achieves 4.7 $\sim$ 71.3$\times$ speedup in latency over a 128-core CPU server and outperforms a data-center GPU by 4.8$\sim$ 20.3$\times$ when using binary input. The impressive performance showcases Piper's potential to increase the efficiency of data preprocessing pipelines and significantly reduce their resource consumption.
- Abstract(参考訳): データデコーディング、クリーニング、変換を含むデータ前処理パイプラインは、機械学習(ML)トレーニングの重要なコンポーネントである。
前処理に使用するCPUとモデルトレーニングに使用するGPUのパフォーマンスギャップが増大しているため、Thyは計算集約的で、しばしば大きなボトルネックとなる。
最近の研究では、GPUを飽和させるのに十分なスループットを達成するためには、複数のマシンにまたがるCPUのかなりの数が必要であることが示されており、リソースとエネルギー消費の増加につながっている。
パイプラインがボキャブラリ生成に関わる場合、CPUコアとサーバ間の行単位でのオーバヘッドにより、前処理のパフォーマンスが低下する。
この制限に対処するため、本論文では、表計算データ前処理のためのハードウェアアクセラレータであるPiperの設計をFPGA上でプロトタイプ化し、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証する。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$\sim$ 71.3$\times$で達成し、バイナリ入力を使用する場合のデータセンタGPUを4.8$\sim$ 20.3$\times$で上回る。
この素晴らしいパフォーマンスは、Piperがデータ前処理パイプラインの効率を向上し、リソース消費を大幅に削減する可能性を示している。
関連論文リスト
- TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。
socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。
評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
論文 参考訳(メタデータ) (2024-09-27T13:39:47Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。
データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。
本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T14:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。