論文の概要: Rover: An online Spark SQL tuning service via generalized transfer
learning
- arxiv url: http://arxiv.org/abs/2302.04046v1
- Date: Wed, 8 Feb 2023 13:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 16:31:38.735149
- Title: Rover: An online Spark SQL tuning service via generalized transfer
learning
- Title(参考訳): Rover: 汎用トランスファー学習によるオンラインSpark SQLチューニングサービス
- Authors: Yu Shen, Xinyuyang Ren, Yupeng Lu, Huaijun Jiang, Huanyong Xu, Di
Peng, Yang Li, Wentao Zhang, Bin Cui
- Abstract要約: 本稿では,専門家支援ベイズ最適化や履歴伝達制御など,外部知識に基づくチューニング性能向上のための一般化された伝達学習を提案する。
Roverは1万1千の現実世界のSpark SQLタスクのメモリコストの50.1%を20イテレーションで節約し、そのうち76.2%が60%以上のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 22.318112129975162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed data analytic engines like Spark are common choices to process
massive data in industry. However, the performance of Spark SQL highly depends
on the choice of configurations, where the optimal ones vary with the executed
workloads. Among various alternatives for Spark SQL tuning, Bayesian
optimization (BO) is a popular framework that finds near-optimal configurations
given sufficient budget, but it suffers from the re-optimization issue and is
not practical in real production. When applying transfer learning to accelerate
the tuning process, we notice two domain-specific challenges: 1) most previous
work focus on transferring tuning history, while expert knowledge from Spark
engineers is of great potential to improve the tuning performance but is not
well studied so far; 2) history tasks should be carefully utilized, where using
dissimilar ones lead to a deteriorated performance in production. In this
paper, we present Rover, a deployed online Spark SQL tuning service for
efficient and safe search on industrial workloads. To address the challenges,
we propose generalized transfer learning to boost the tuning performance based
on external knowledge, including expert-assisted Bayesian optimization and
controlled history transfer. Experiments on public benchmarks and real-world
tasks show the superiority of Rover over competitive baselines. Notably, Rover
saves an average of 50.1% of the memory cost on 12k real-world Spark SQL tasks
in 20 iterations, among which 76.2% of the tasks achieve a significant memory
reduction of over 60%.
- Abstract(参考訳): Sparkのような分散データ分析エンジンは、業界で大量のデータを処理する一般的な選択肢である。
しかし、Spark SQLのパフォーマンスは、実行中のワークロードによって最適なものが異なる設定の選択に大きく依存する。
Spark SQLチューニングの代替として、Bayesian Optimization(BO)は、十分な予算が与えられたほぼ最適設定を見つける人気フレームワークであるが、再最適化の問題に悩まされており、実運用では実用的ではない。
チューニングプロセスを加速するために転写学習を適用する場合、ドメイン固有の2つの課題に気づく。
1) これまでの作業はチューニング履歴の転送に重点を置いていたが,Sparkの技術者による専門家の知識はチューニングのパフォーマンス向上に大きな可能性を持っている。
2) 履歴タスクを慎重に利用し, 異種タスクを使用することで生産性能が低下する。
本稿では,産業ワークロードの効率的かつ安全な検索を行うオンラインSpark SQLチューニングサービスであるRoverを紹介する。
この課題に対処するために,専門家支援ベイズ最適化や制御履歴転送など,外部知識に基づくチューニング性能を向上させるために,一般化した転送学習を提案する。
公開ベンチマークと実世界のタスクに関する実験は、ローバーが競合ベースラインよりも優れていることを示している。
特にローバーは、1k実世界のspark sqlタスクのメモリコストの50.1%を20回のイテレーションで節約し、その76.2%が60%以上のメモリ削減を達成している。
関連論文リスト
- Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Autonomic Architecture for Big Data Performance Optimization [1.784933900656067]
本稿では,ビッグデータチューニングの自律的アーキテクチャであるKERMITについて述べる。
KERMITは、人間の管理者によるルール・オブ・サンプのチューニングよりも30%高速なパフォーマンスを実現することができる。
最大99%の精度で重要なワークロード変更を検出し、96%の精度で将来のワークロードタイプを予測することができる。
論文 参考訳(メタデータ) (2023-03-17T22:29:56Z) - Judging Adam: Studying the Performance of Optimization Methods on ML4SE
Tasks [2.8961929092154697]
ソースコードの深層学習モデルを用いて各種の性能を検証した。
Anaheadの選択は、モデルの品質に大きな影響を与えます。
ML4SEコミュニティは、コード関連のディープラーニングタスクのデフォルトとして、Adamを使うべきだ、と提案する。
論文 参考訳(メタデータ) (2023-03-06T22:49:20Z) - Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。
Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。
Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-14T07:31:11Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Tasks, stability, architecture, and compute: Training more effective
learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。
ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。
何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文 参考訳(メタデータ) (2020-09-23T16:35:09Z) - Data Movement Is All You Need: A Case Study on Optimizing Transformers [16.62346773613343]
本稿では,トランスにおけるデータ移動をグローバルに最適化するためのレシピを提案する。
データ移動を最大22.91%削減し、最先端のフレームワークよりも1.30倍のパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2020-06-30T19:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。