論文の概要: tf.data: A Machine Learning Data Processing Framework
- arxiv url: http://arxiv.org/abs/2101.12127v2
- Date: Tue, 23 Feb 2021 22:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:30:52.507692
- Title: tf.data: A Machine Learning Data Processing Framework
- Title(参考訳): tf.data: 機械学習データ処理フレームワーク
- Authors: Derek G. Murray, Jiri Simsa, Ana Klimovic, Ihor Indyk
- Abstract要約: 機械学習モデルのトレーニングには、モデルに入力データを入力する必要がある。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
入力パイプラインのパフォーマンスは、最先端の機械学習モデルのエンドツーエンドのトレーニング時間に極めて重要であることを実証する。
- 参考スコア(独自算出の注目度): 0.4588028371034406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training machine learning models requires feeding input data for models to
ingest. Input pipelines for machine learning jobs are often challenging to
implement efficiently as they require reading large volumes of data, applying
complex transformations, and transferring data to hardware accelerators while
overlapping computation and communication to achieve optimal performance. We
present tf.data, a framework for building and executing efficient input
pipelines for machine learning jobs. The tf.data API provides operators which
can be parameterized with user-defined computation, composed, and reused across
different machine learning domains. These abstractions allow users to focus on
the application logic of data processing, while tf.data's runtime ensures that
pipelines run efficiently.
We demonstrate that input pipeline performance is critical to the end-to-end
training time of state-of-the-art machine learning models. tf.data delivers the
high performance required, while avoiding the need for manual tuning of
performance knobs. We show that tf.data features, such as parallelism, caching,
static optimizations, and non-deterministic execution are essential for high
performance. Finally, we characterize machine learning input pipelines for
millions of jobs that ran in Google's fleet, showing that input data processing
is highly diverse and consumes a significant fraction of job resources. Our
analysis motivates future research directions, such as sharing computation
across jobs and pushing data projection to the storage layer.
- Abstract(参考訳): 機械学習モデルのトレーニングには、取り込むモデルに入力データを供給する必要がある。
機械学習ジョブの入力パイプラインは、大量のデータを読み、複雑な変換を適用し、データをハードウェアアクセラレータに転送すると同時に、計算と通信を重複させて最適なパフォーマンスを達成する必要があるため、効率的な実装が難しいことが多い。
機械学習ジョブのための効率的な入力パイプラインの構築と実行のためのフレームワークであるtf.dataを提案する。
tf.data apiは、さまざまな機械学習ドメインにわたって、ユーザ定義の計算、構成、再利用によってパラメータ化できるオペレータを提供する。
これらの抽象化により、ユーザはデータ処理のアプリケーションロジックに集中でき、tf.dataのランタイムはパイプラインの効率的な実行を保証する。
最先端機械学習モデルのエンドツーエンドトレーニングには,入力パイプラインのパフォーマンスが不可欠であることを実証する。
tf.dataは高いパフォーマンスを実現すると同時に、パフォーマンスノブの手動チューニングの必要性を回避する。
並列性、キャッシング、静的最適化、非決定論的実行といったtf.data機能は、ハイパフォーマンスには不可欠である。
最後に、Googleのフリートで実行されている数百万のジョブに対して、マシンラーニングの入力パイプラインを特徴付け、入力データ処理が極めて多様性があり、かなりのジョブリソースを消費していることを示す。
我々の分析は、ジョブ間で計算を共有し、データプロジェクションをストレージ層にプッシュするといった将来の研究方向性を動機付けている。
関連論文リスト
- Data Pipeline Training: Integrating AutoML to Optimize the Data Flow of
Machine Learning Models [17.091169031023714]
Data Pipelineは、マシンラーニングのモデリングやデータ製品の開発といったタスクにおいて、必須の役割を果たす。
本稿では,機械学習の自動化によるデータフローの最適化について検討する。
私たちは、AutoML技術を活用してData Pipelineのインテリジェンスを強化する方法について論じる。
論文 参考訳(メタデータ) (2024-02-20T11:06:42Z) - cedar: Optimized and Unified Machine Learning Input Data Pipelines [2.0375440421573843]
cedarは、機械学習入力データパイプラインのための最適化された統一プログラミングフレームワークである。
cedarは、ローカルおよび分散コンピューティングリソースのカスタマイズ可能なセットで処理をオーケストレーションする。
cedarは、最先端の入力データシステムと比較して、パフォーマンスを最大1.87倍から10.65倍改善する。
論文 参考訳(メタデータ) (2024-01-17T00:36:58Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - tf.data service: A Case for Disaggregating ML Input Data Processing [4.851146762916078]
機械学習(ML)計算はGPUやTPUなどの高価なハードウェア上で一般的に実行され、高いFLOPとワット当たりのパフォーマンスを提供する。
データストールを避けるため、ML計算に使用されるアクセラレータコア毎に入力データ処理に必要なホストCPUとRAMはジョブによって異なる。
tf.data 上に構築されたオープンソースの非集約型入力データ処理サービスである tf.data について述べる。
論文 参考訳(メタデータ) (2022-10-26T16:15:45Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。