論文の概要: Forecasting SQL Query Cost at Twitter
- arxiv url: http://arxiv.org/abs/2204.05529v1
- Date: Tue, 12 Apr 2022 05:08:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 14:43:18.980194
- Title: Forecasting SQL Query Cost at Twitter
- Title(参考訳): twitterにおけるsqlクエリコスト予測
- Authors: Chunxu Tang, Beinan Wang, Zhenxiao Luo, Huijun Wu, Shajan Dasan,
Maosong Fu, Yao Li, Mainak Ghosh, Ruchin Kabra, Nikhil Kantibhai Navadiya, Da
Cheng, Fred Dai, Vrushali Channapattan, and Prachi Mishra
- Abstract要約: Serviceは、履歴クエリ要求ログからモデルをトレーニングするために、機械学習技術を使用している。
モデルはCPU使用率予測の97.9%、メモリ使用率予測の97%の精度を達成することができる。
- 参考スコア(独自算出の注目度): 2.124552987084511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of the Big Data era, it is usually computationally expensive
to calculate the resource usages of a SQL query with traditional DBMS
approaches. Can we estimate the cost of each query more efficiently without any
computation in a SQL engine kernel? Can machine learning techniques help to
estimate SQL query resource utilization? The answers are yes. We propose a SQL
query cost predictor service, which employs machine learning techniques to
train models from historical query request logs and rapidly forecasts the CPU
and memory resource usages of online queries without any computation in a SQL
engine. At Twitter, infrastructure engineers are maintaining a large-scale SQL
federation system across on-premises and cloud data centers for serving ad-hoc
queries. The proposed service can help to improve query scheduling by relieving
the issue of imbalanced online analytical processing (OLAP) workloads in the
SQL engine clusters. It can also assist in enabling preemptive scaling.
Additionally, the proposed approach uses plain SQL statements for the model
training and online prediction, indicating it is both hardware and
software-agnostic. The method can be generalized to broader SQL systems and
heterogeneous environments. The models can achieve 97.9\% accuracy for CPU
usage prediction and 97\% accuracy for memory usage prediction.
- Abstract(参考訳): ビッグデータ時代の到来とともに、従来のDBMSアプローチによるSQLクエリのリソース使用量を計算するのは通常、計算コストがかかる。
sqlエンジンカーネルで計算することなく、各クエリのコストをより効率的に見積もることができるか?
機械学習技術はsqlクエリリソースの利用を見積もるのに役立つか?
答えはイエスです。
本稿では,過去のクエリ要求ログからモデルをトレーニングする機械学習技術を用いて,sqlエンジンで計算することなく,オンラインクエリのcpuおよびメモリリソース使用量を迅速に予測するsqlクエリコスト予測サービスを提案する。
twitterでは、インフラストラクチャエンジニアがオンプレミスとクラウドデータセンタをまたいで、アドホックなクエリを提供する大規模なsqlフェデレーションシステムをメンテナンスしている。
提案されたサービスは、SQLエンジンクラスタ内の不均衡なオンライン分析処理(OLAP)ワークロードの問題を軽減することで、クエリスケジューリングの改善を支援する。
プリエンプティブスケーリングの実現も支援できる。
さらに、提案手法では、モデルトレーニングとオンライン予測にプレーンSQLステートメントを使用し、ハードウェアとソフトウェアに依存しないことを示している。
この方法はより広範なSQLシステムや異種環境に一般化することができる。
モデルはcpu使用量予測の97.9\%精度とメモリ使用量予測の97\%精度を達成できる。
関連論文リスト
- Improving DBMS Scheduling Decisions with Fine-grained Performance Prediction on Concurrent Queries -- Extended [15.354441937462271]
IconqSchedは、クエリの実行順序とタイミングを最適化する、新しい、原則化された非侵入スケジューラである。
IconqSchedは、システムランタイムをブラックボックスとして扱う、新しいきめ細かい予測器であるIconqを備えている。
我々はIconqSchedを実際のワークロードトレースを使用したエンドツーエンドランタイムの観点から他のスケジューラと比較する。
論文 参考訳(メタデータ) (2025-01-27T17:55:39Z) - PixelsDB: Serverless and NL-Aided Data Analytics with Flexible Service Levels and Prices [17.048398987952332]
PixelsDBは、ユーザが効率的にデータを探索できるオープンソースのデータ分析システムである。
クエリは、さまざまなパフォーマンスサービスレベル(SLA)に対してさまざまな価格を提供するサーバレスクエリエンジンによって実行される。
サーバレスパラダイム,自然言語支援インターフェース,フレキシブルSLAと価格の組み合わせによって,クラウドデータ分析システムのユーザビリティが大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-05-30T07:48:43Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Learning GraphQL Query Costs (Extended Version) [7.899264246319001]
本稿では,クエリコストを効率的に正確に推定する機械学習手法を提案する。
我々のフレームワークは効率的で、クエリコストを高い精度で予測し、静的解析を大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2021-08-25T09:18:31Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - Efficient Deep Learning Pipelines for Accurate Cost Estimations Over
Large Scale Query Workload [25.52190205651031]
クエリトレースのリソース消費パターンを正確に予測するツリー畳み込みベースのデータサイエンスパイプラインを開発しています。
20PB以上のデータレイク上のGrabから19K Presto OLAPクエリ上のパイプラインを評価します。
我々は、microsoft azure上の大規模バッチモデルトレーニングで最大13.2倍の直接コスト削減を実証する。
論文 参考訳(メタデータ) (2021-03-23T11:36:10Z) - Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。
我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。
提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文 参考訳(メタデータ) (2020-10-25T16:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。