論文の概要: cedar: Composable and Optimized Machine Learning Input Data Pipelines
- arxiv url: http://arxiv.org/abs/2401.08895v2
- Date: Thu, 25 Jan 2024 06:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 17:15:29.609166
- Title: cedar: Composable and Optimized Machine Learning Input Data Pipelines
- Title(参考訳): cedar: 構成可能で最適化された機械学習入力データパイプライン
- Authors: Mark Zhao, Emanuel Adamiak, Christos Kozyrakis
- Abstract要約: cedarは、入力データパイプラインを簡単に構築、最適化、実行できるプログラミングモデルとフレームワークである。
cedarは、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
cedarは、tf.data、tf.dataサービス、Ray Data、PyTorchのDataLoaderと比較して、それぞれ2.49x、1.87x、2.18x、2.74倍高いパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 2.2899953111727718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The input data pipeline is an essential component of each machine learning
(ML) training job. It is responsible for reading massive amounts of training
data, processing batches of samples using complex transformations, and loading
them onto training nodes at low latency and high throughput. Performant input
data systems are becoming increasingly critical, driven by skyrocketing data
volumes and training throughput demands. Unfortunately, current input data
systems cannot fully leverage key performance optimizations, resulting in
hugely inefficient infrastructures that require significant resources -- or
worse -- underutilize expensive accelerators.
To address these demands, we present cedar, a programming model and framework
that allows users to easily build, optimize, and execute input data pipelines.
cedar presents an easy-to-use programming interface, allowing users to define
input data pipelines using composable operators that support arbitrary ML
frameworks and libraries. Meanwhile, cedar transparently applies a complex and
extensible set of optimization techniques (e.g., offloading, caching,
prefetching, fusion, and reordering). It then orchestrates processing across a
customizable set of local and distributed compute resources in order to
maximize processing performance and efficiency, all without user input. On
average across six diverse input data pipelines, cedar achieves a 2.49x, 1.87x,
2.18x, and 2.74x higher performance compared to tf.data, tf.data service, Ray
Data, and PyTorch's DataLoader, respectively.
- Abstract(参考訳): 入力データパイプラインは、各機械学習(ML)トレーニングジョブの重要なコンポーネントである。
大量のトレーニングデータを読み込んで、複雑な変換を使ってサンプルのバッチを処理し、低レイテンシと高スループットでトレーニングノードにロードする責務を負う。
パフォーマンスの高い入力データシステムは、データボリュームの急増とスループットのトレーニング要求によって、ますます重要になっています。
残念なことに、現在の入力データシステムは、重要なパフォーマンス最適化を完全に活用できないため、膨大なリソースを必要とする非常に非効率なインフラストラクチャーが、高価なアクセラレーターを過小に活用している。
これらの要求に対処するために、ユーザは入力データパイプラインを簡単に構築、最適化、実行できるプログラミングモデルとフレームワークであるcedarを紹介します。
ユーザーは任意のMLフレームワークとライブラリをサポートする構成可能な演算子を使って入力データパイプラインを定義できる。
一方、シーダーは複雑で拡張可能な最適化技術(例えば、オフロード、キャッシュ、プリフェッチ、フュージョン、再順序付け)を透過的に適用する。
そして、ユーザ入力なしで処理性能と効率を最大化するために、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
6つの多様な入力データパイプラインで平均して、cedarは、それぞれtf.data、tf.dataサービス、Ray Data、PyTorchのDataLoaderと比較して2.49x、1.87x、2.18x、2.74倍高いパフォーマンスを達成する。
関連論文リスト
- Understand Data Preprocessing for Effective End-to-End Training of Deep
Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。
我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文 参考訳(メタデータ) (2023-04-18T11:57:38Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training [5.058493679956239]
本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
論文 参考訳(メタデータ) (2021-08-20T21:09:34Z) - tf.data: A Machine Learning Data Processing Framework [0.4588028371034406]
機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
論文 参考訳(メタデータ) (2021-01-28T17:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。