Fugu-MT 論文翻訳(概要): Forecasting SQL Query Cost at Twitter

論文の概要: Forecasting SQL Query Cost at Twitter

arxiv url: http://arxiv.org/abs/2204.05529v1
Date: Tue, 12 Apr 2022 05:08:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 14:43:18.980194
Title: Forecasting SQL Query Cost at Twitter
Title（参考訳）: twitterにおけるsqlクエリコスト予測
Authors: Chunxu Tang, Beinan Wang, Zhenxiao Luo, Huijun Wu, Shajan Dasan, Maosong Fu, Yao Li, Mainak Ghosh, Ruchin Kabra, Nikhil Kantibhai Navadiya, Da Cheng, Fred Dai, Vrushali Channapattan, and Prachi Mishra
Abstract要約: Serviceは、履歴クエリ要求ログからモデルをトレーニングするために、機械学習技術を使用している。モデルはCPU使用率予測の97.9%、メモリ使用率予測の97%の精度を達成することができる。
参考スコア（独自算出の注目度）: 2.124552987084511
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the advent of the Big Data era, it is usually computationally expensive to calculate the resource usages of a SQL query with traditional DBMS approaches. Can we estimate the cost of each query more efficiently without any computation in a SQL engine kernel? Can machine learning techniques help to estimate SQL query resource utilization? The answers are yes. We propose a SQL query cost predictor service, which employs machine learning techniques to train models from historical query request logs and rapidly forecasts the CPU and memory resource usages of online queries without any computation in a SQL engine. At Twitter, infrastructure engineers are maintaining a large-scale SQL federation system across on-premises and cloud data centers for serving ad-hoc queries. The proposed service can help to improve query scheduling by relieving the issue of imbalanced online analytical processing (OLAP) workloads in the SQL engine clusters. It can also assist in enabling preemptive scaling. Additionally, the proposed approach uses plain SQL statements for the model training and online prediction, indicating it is both hardware and software-agnostic. The method can be generalized to broader SQL systems and heterogeneous environments. The models can achieve 97.9\% accuracy for CPU usage prediction and 97\% accuracy for memory usage prediction.
Abstract（参考訳）: ビッグデータ時代の到来とともに、従来のDBMSアプローチによるSQLクエリのリソース使用量を計算するのは通常、計算コストがかかる。 sqlエンジンカーネルで計算することなく、各クエリのコストをより効率的に見積もることができるか? 機械学習技術はsqlクエリリソースの利用を見積もるのに役立つか? 答えはイエスです。本稿では,過去のクエリ要求ログからモデルをトレーニングする機械学習技術を用いて,sqlエンジンで計算することなく,オンラインクエリのcpuおよびメモリリソース使用量を迅速に予測するsqlクエリコスト予測サービスを提案する。 twitterでは、インフラストラクチャエンジニアがオンプレミスとクラウドデータセンタをまたいで、アドホックなクエリを提供する大規模なsqlフェデレーションシステムをメンテナンスしている。提案されたサービスは、SQLエンジンクラスタ内の不均衡なオンライン分析処理(OLAP)ワークロードの問題を軽減することで、クエリスケジューリングの改善を支援する。プリエンプティブスケーリングの実現も支援できる。さらに、提案手法では、モデルトレーニングとオンライン予測にプレーンSQLステートメントを使用し、ハードウェアとソフトウェアに依存しないことを示している。この方法はより広範なSQLシステムや異種環境に一般化することができる。モデルはcpu使用量予測の97.9\%精度とメモリ使用量予測の97\%精度を達成できる。

関連論文リスト

Cortex AISQL: A Production SQL Engine for Unstructured Data [11.480345698642006]
AIはSnowflakeで本番環境にデプロイされ、分析、検索、コンテンツ理解にまたがるさまざまな顧客のワークロードに電力を供給する。本稿では、AI対応クエリ最適化が、AI推論コストを第一級最適化目標として扱う方法を示す。第二に、適応モデルカスケードは、高速プロキシモデルを通じてほとんどの行をルーティングすることで、推論コストを削減する。第三に、セマンティックなジョインクエリの書き換えは、ジョイン操作の二次的な時間の複雑さを線形に下げる。
論文参考訳（メタデータ） (2025-11-10T22:14:13Z)
SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads [18.665946271507117]
sqlBarberはLarge Language Models(LLM)に基づくシステムで、カスタマイズされたリアルなsqlワークロードを生成する。クエリ生成時間を1～3桁に短縮し、ターゲットのコスト分布との整合性を大幅に改善する。我々は、SnowflakeとAmazon Redshiftの実際の統計に基づいて、さまざまな難易度とクエリコスト分布の10のベンチマークを構築し、オープンソース化する。
論文参考訳（メタデータ） (2025-07-08T17:20:34Z)
A Learned Cost Model-based Cross-engine Optimizer for SQL Workloads [3.7960472831772765]
Lakehouseシステムでは、同じデータを複数の実行エンジンでクエリすることができる。学習コストモデルを用いて,多様なクエリに対するエンジン選択を自動化するクロスエンジンを提案する。コスト推定にクエリ最適化された論理的計画を用いることで、最適化されていない計画を入力として使用することで、平均Qエラーを12.6%も削減できることを示す。
論文参考訳（メタデータ） (2025-06-03T12:32:56Z)
Weaver: Interweaving SQL and LLM for Table Reasoning [62.55797244714265]
Weaverは、構造化データ検索のためのsqlとセマンティック処理のためのLLMを組み合わせたフレキシブルなステップバイステッププランを生成する。 Weaverは、4つのTableQAデータセットで、最先端のメソッドを一貫して上回る。
論文参考訳（メタデータ） (2025-05-25T03:27:37Z)
EllieSQL: Cost-Efficient Text-to-SQL with Complexity-Aware Routing [10.42853117200315]
Text-to-sqlでは、専門知識のない非技術者がデータベースからデータを取得することができる。リーダーボードにおける先進的なText-to-sqlアプローチの成功にもかかわらず、持続不可能な計算コストは見落とされがちである。本稿では,パフォーマンス向上の応答性を捉えることで,コスト効率を計測するToken Elasticity of Performance指標を紹介する。私たちのソースコードとモデルはhttps://elliesql.io/.com/で公開されています。
論文参考訳（メタデータ） (2025-03-28T13:11:27Z)
Improving DBMS Scheduling Decisions with Fine-grained Performance Prediction on Concurrent Queries -- Extended [15.354441937462271]
IconqSchedは、クエリの実行順序とタイミングを最適化する、新しい、原則化された非侵入スケジューラである。 IconqSchedは、システムランタイムをブラックボックスとして扱う、新しいきめ細かい予測器であるIconqを備えている。我々はIconqSchedを実際のワークロードトレースを使用したエンドツーエンドランタイムの観点から他のスケジューラと比較する。
論文参考訳（メタデータ） (2025-01-27T17:55:39Z)
PixelsDB: Serverless and Natural-Language-Aided Data Analytics with Flexible Service Levels and Prices [16.104672530595483]
PixelsDBは、ユーザが効率的にデータを探索できるオープンソースのデータ分析システムである。ユーザは、微調整された言語モデルを使った自然言語インターフェースを使用して、sqlクエリを生成およびデバッグできる。クエリはサーバレスクエリエンジンによって実行され、クエリ緊急時にさまざまなサービスレベルに対してさまざまな価格が提供される。
論文参考訳（メタデータ） (2024-05-30T07:48:43Z)
FeatAug: Automatic Feature Augmentation From One-to-Many Relationship Tables [4.058220332950672]
1対多の関係テーブルの機能強化は、MLモデル開発において重要な問題であるが、難しい問題である。本稿では,1対多の関係テーブルから述語クエリを自動的に抽出する機能拡張フレームワークFEATAUGを提案する。 FeatAugがFeattoolsよりも効果的な特徴を抽出できることを実世界の4つのデータセットで実証した。
論文参考訳（メタデータ） (2024-03-11T01:44:14Z)
SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。 Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。 emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文参考訳（メタデータ） (2023-11-06T05:24:06Z)
JoinGym: An Efficient Query Optimization Environment for Reinforcement Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。 JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文参考訳（メタデータ） (2023-07-21T17:00:06Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2023-05-21T19:26:46Z)
Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文参考訳（メタデータ） (2021-12-12T20:02:42Z)
Learning GraphQL Query Costs (Extended Version) [7.899264246319001]
本稿では,クエリコストを効率的に正確に推定する機械学習手法を提案する。我々のフレームワークは効率的で、クエリコストを高い精度で予測し、静的解析を大きなマージンで一貫して上回っている。
論文参考訳（メタデータ） (2021-08-25T09:18:31Z)
Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文参考訳（メタデータ） (2021-08-05T22:04:13Z)
Efficient Deep Learning Pipelines for Accurate Cost Estimations Over Large Scale Query Workload [25.52190205651031]
クエリトレースのリソース消費パターンを正確に予測するツリー畳み込みベースのデータサイエンスパイプラインを開発しています。 20PB以上のデータレイク上のGrabから19K Presto OLAPクエリ上のパイプラインを評価します。我々は、microsoft azure上の大規模バッチモデルトレーニングで最大13.2倍の直接コスト削減を実証する。
論文参考訳（メタデータ） (2021-03-23T11:36:10Z)
Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文参考訳（メタデータ） (2020-10-25T16:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。