論文の概要: Efficient Deep Learning Pipelines for Accurate Cost Estimations Over
Large Scale Query Workload
- arxiv url: http://arxiv.org/abs/2103.12465v1
- Date: Tue, 23 Mar 2021 11:36:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 13:43:02.435905
- Title: Efficient Deep Learning Pipelines for Accurate Cost Estimations Over
Large Scale Query Workload
- Title(参考訳): 大規模クエリ負荷の正確なコスト推定のための効率的なディープラーニングパイプライン
- Authors: Johan Kok Zhi Kang, Gaurav, Sien Yi Tan, Feng Cheng, Shixuan Sun,
Bingsheng He
- Abstract要約: クエリトレースのリソース消費パターンを正確に予測するツリー畳み込みベースのデータサイエンスパイプラインを開発しています。
20PB以上のデータレイク上のGrabから19K Presto OLAPクエリ上のパイプラインを評価します。
我々は、microsoft azure上の大規模バッチモデルトレーニングで最大13.2倍の直接コスト削減を実証する。
- 参考スコア(独自算出の注目度): 25.52190205651031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of deep learning models for forecasting the resource consumption
patterns of SQL queries have recently been a popular area of study. With many
companies using cloud platforms to power their data lakes for large scale
analytic demands, these models form a critical part of the pipeline in managing
cloud resource provisioning. While these models have demonstrated promising
accuracy, training them over large scale industry workloads are expensive.
Space inefficiencies of encoding techniques over large numbers of queries and
excessive padding used to enforce shape consistency across diverse query plans
implies 1) longer model training time and 2) the need for expensive, scaled up
infrastructure to support batched training. In turn, we developed Prestroid, a
tree convolution based data science pipeline that accurately predicts resource
consumption patterns of query traces, but at a much lower cost.
We evaluated our pipeline over 19K Presto OLAP queries from Grab, on a data
lake of more than 20PB of data. Experimental results imply that our pipeline
outperforms benchmarks on predictive accuracy, contributing to more precise
resource prediction for large-scale workloads, yet also reduces per-batch
memory footprint by 13.5x and per-epoch training time by 3.45x. We demonstrate
direct cost savings of up to 13.2x for large batched model training over
Microsoft Azure VMs.
- Abstract(参考訳): SQLクエリのリソース消費パターンを予測するためのディープラーニングモデルの使用は、最近よく研究されている分野である。
多くの企業がデータレイクを大規模分析のためにクラウドプラットフォームを使用しているため、これらのモデルはクラウドリソースのプロビジョニングを管理するパイプラインの重要な部分を形成している。
これらのモデルは有望な正確性を示しているが、大規模産業ワークロードでのトレーニングは高価である。
大量のクエリと多種多様なクエリプランにまたがるシェイプ一貫性を強制するために使用される過剰なパディングに対するエンコーディング技術の非効率性は、1) モデルトレーニング時間が長く、2) バッチトレーニングをサポートするための高価なスケールアップインフラストラクチャの必要性を暗示している。
そこで我々は,クエリトレースのリソース消費パターンを正確に予測する木畳み込みに基づくデータサイエンスパイプラインであるPrestroidを開発した。
我々は20pb以上のデータを持つデータレイク上で,grabによる1k以上のpresto olapクエリを評価した。
実験結果は、パイプラインが予測精度のベンチマークを上回り、大規模ワークロードのリソース予測をより正確にすると同時に、バッチ毎のメモリフットプリントを13.5倍、エピック毎のトレーニング時間を3.45倍削減することを示している。
Microsoft Azure VM上での大規模なバッチモデルトレーニングでは,最大13.2倍のコスト削減を実演する。
関連論文リスト
- Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow [49.724842920942024]
金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
本研究では,データ分析エージェントであるData-Copilotを提案する。
論文 参考訳(メタデータ) (2023-06-12T16:12:56Z) - Training Large Language Models Efficiently with Sparsity and Dataflow [3.1780195670658378]
本稿では,大言語モデル(130億GPT)における疎度とデータフローを用いたエンドツーエンドのトレーニングフローを示す。
我々は,GPT 13Bを高密度のGPT 13Bモデルと同じ品質でトレーニングできる一方で,高密度のA100ベースライン上でのエンドツーエンドの高速化を4.5倍に達成できることを示す。
論文 参考訳(メタデータ) (2023-04-11T21:37:13Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z) - Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。
データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。
本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T14:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。