論文の概要: PreSto: An In-Storage Data Preprocessing System for Training Recommendation Models
- arxiv url: http://arxiv.org/abs/2406.14571v1
- Date: Tue, 11 Jun 2024 05:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:21:04.007987
- Title: PreSto: An In-Storage Data Preprocessing System for Training Recommendation Models
- Title(参考訳): PreSto:レコメンデーションモデルのトレーニングのためのストレージ内データ前処理システム
- Authors: Yunjae Lee, Hyeseong Kim, Minsoo Rhu,
- Abstract要約: PreSto - In-Storage Processing (ISP)を利用したストレージ中心の事前処理システム
PreStoは、CPU中心のベースラインシステムよりも9.6倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 3.781822234460176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training recommendation systems (RecSys) faces several challenges as it requires the "data preprocessing" stage to preprocess an ample amount of raw data and feed them to the GPU for training in a seamless manner. To sustain high training throughput, state-of-the-art solutions reserve a large fleet of CPU servers for preprocessing which incurs substantial deployment cost and power consumption. Our characterization reveals that prior CPU-centric preprocessing is bottlenecked on feature generation and feature normalization operations as it fails to reap out the abundant inter-/intra-feature parallelism in RecSys preprocessing. PreSto is a storage-centric preprocessing system leveraging In-Storage Processing (ISP), which offloads the bottlenecked preprocessing operations to our ISP units. We show that PreSto outperforms the baseline CPU-centric system with a $9.6\times$ speedup in end-to-end preprocessing time, $4.3\times$ enhancement in cost-efficiency, and $11.3\times$ improvement in energyefficiency on average for production-scale RecSys preprocessing.
- Abstract(参考訳): トレーニングレコメンデーションシステム(RecSys)は、大量の生データを前処理し、それらをGPUにシームレスに供給するために、"データ前処理"ステージを必要とするため、いくつかの課題に直面している。
高いトレーニングスループットを維持するために、最先端のソリューションは大量のCPUサーバを事前処理のために予約する。
我々の特徴は、RecSysプリプロセッシングにおいて、CPU中心のプリプロセッシングは機能生成と機能正規化操作にボトルネックがあることである。
PreStoは、ISP(In-Storage Processing)を活用するストレージ中心の事前処理システムです。
PreStoは、エンド・ツー・エンドのプリプロセッシング時間で9.6\times$スピードアップ、4.3\times$コスト効率の向上、1.3\times$エネルギ効率をプロダクションスケールのRecSysプリプロセッシングで平均して1.3\times$エネルギ効率の向上で、ベースラインのCPU中心システムより優れていることを示す。
関連論文リスト
- Efficient Tabular Data Preprocessing of ML Pipelines [9.23424733090734]
データ前処理パイプラインは機械学習(ML)トレーニングの重要なコンポーネントである。
Piperは、データ前処理のためのハードウェアアクセラレータで、FPGA上でプロトタイプし、商用レコメンデータシステムのパイプラインをトレーニングする可能性を実証している。
Piperは128コアのCPUサーバ上でのレイテンシの高速化を4.7$sim$ 71.3$times$達成し、バイナリ入力を使用する場合のデータセンタGPUの4.8$sim$ 20.3$times$を上回っている。
論文 参考訳(メタデータ) (2024-09-23T11:07:57Z) - Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。
本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。
事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文 参考訳(メタデータ) (2024-04-01T00:21:11Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - Understand Data Preprocessing for Effective End-to-End Training of Deep
Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。
我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文 参考訳(メタデータ) (2023-04-18T11:57:38Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training [5.058493679956239]
本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
論文 参考訳(メタデータ) (2021-08-20T21:09:34Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。