Fugu-MT 論文翻訳(概要): Efficient Tabular Data Preprocessing of ML Pipelines

論文の概要: Efficient Tabular Data Preprocessing of ML Pipelines

arxiv url: http://arxiv.org/abs/2409.14912v1
Date: Mon, 23 Sep 2024 11:07:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 15:26:12.913931
Title: Efficient Tabular Data Preprocessing of ML Pipelines
Title（参考訳）: MLパイプラインの効率的なタブラルデータ前処理
Authors: Yu Zhu, Wenqi Jiang, Gustavo Alonso,
Abstract要約: データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。 Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。 Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
参考スコア（独自算出の注目度）: 9.23424733090734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data preprocessing pipelines, which includes data decoding, cleaning, and transforming, are a crucial component of Machine Learning (ML) training. Thy are computationally intensive and often become a major bottleneck, due to the increasing performance gap between the CPUs used for preprocessing and the GPUs used for model training. Recent studies show that a significant number of CPUs across several machines are required to achieve sufficient throughput to saturate the GPUs, leading to increased resource and energy consumption. When the pipeline involves vocabulary generation, the preprocessing performance scales poorly due to significant row-wise synchronization overhead between different CPU cores and servers. To address this limitation, in this paper we present the design of Piper, a hardware accelerator for tabular data preprocessing, prototype it on FPGAs, and demonstrate its potential for training pipelines of commercial recommender systems. Piper achieves 4.7 $\sim$ 71.3$\times$ speedup in latency over a 128-core CPU server and outperforms a data-center GPU by 4.8$\sim$ 20.3$\times$ when using binary input. The impressive performance showcases Piper's potential to increase the efficiency of data preprocessing pipelines and significantly reduce their resource consumption.
Abstract（参考訳）: データデコーディング、クリーニング、変換を含むデータ前処理パイプラインは、機械学習(ML)トレーニングの重要なコンポーネントである。前処理に使用するCPUとモデルトレーニングに使用するGPUのパフォーマンスギャップが増大しているため、Thyは計算集約的で、しばしば大きなボトルネックとなる。最近の研究では、GPUを飽和させるのに十分なスループットを達成するためには、複数のマシンにまたがるCPUのかなりの数が必要であることが示されており、リソースとエネルギー消費の増加につながっている。パイプラインがボキャブラリ生成に関わる場合、CPUコアとサーバ間の行単位でのオーバヘッドにより、前処理のパフォーマンスが低下する。この制限に対処するため、本論文では、表計算データ前処理のためのハードウェアアクセラレータであるPiperの設計をFPGA上でプロトタイプ化し、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証する。 Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$\sim$ 71.3$\times$で達成し、バイナリ入力を使用する場合のデータセンタGPUを4.8$\sim$ 20.3$\times$で上回る。この素晴らしいパフォーマンスは、Piperがデータ前処理パイプラインの効率を向上し、リソース消費を大幅に削減する可能性を示している。

関連論文リスト

PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。 PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文参考訳（メタデータ） (2025-03-15T08:48:38Z)
Multi-Tenant SmartNICs for In-Network Preprocessing of Recommender Systems [9.23424733090734]
オンラインデータ前処理は、レコメンダシステムを提供する上で、ますます重要な役割を担っている。既存のソリューションでは、複数のCPUワーカーを使用して、単一のトレーニングノードの入力帯域幅を飽和させる。データロードと前処理パイプラインをストリーミング形式で実行する,フレキシブルでネットワーク対応のアクセラレータであるPiperを紹介します。
論文参考訳（メタデータ） (2025-01-21T10:53:17Z)
Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文参考訳（メタデータ） (2024-12-02T06:57:46Z)
TensorSocket: Shared Data Loading for Deep Learning Training [0.0]
ディープラーニングトレーニングは反復的かつリソース集約的なプロセスである。 socketは、同じデータローダを共有する同時トレーニングプロセスを可能にする。評価の結果,データ共有なしでは実現不可能なシナリオが実現でき,トレーニングのスループットを最大で100%向上できることがわかった。
論文参考訳（メタデータ） (2024-09-27T13:39:47Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。 tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文参考訳（メタデータ） (2022-10-26T16:15:45Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文参考訳（メタデータ） (2021-10-03T05:45:06Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
DistGNN: Scalable Distributed Training for Large-Scale Graph Neural Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。 4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文参考訳（メタデータ） (2021-04-14T08:46:35Z)
Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文参考訳（メタデータ） (2020-04-21T14:19:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。