論文の概要: Pre-Execution Query Slot-Time Prediction in Cloud Data Warehouses: A Feature-Scoped Machine Learning Approach
- arxiv url: http://arxiv.org/abs/2604.20145v1
- Date: Wed, 22 Apr 2026 03:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.946603
- Title: Pre-Execution Query Slot-Time Prediction in Cloud Data Warehouses: A Feature-Scoped Machine Learning Approach
- Title(参考訳): クラウドデータウェアハウスにおける事前実行クエリのスロータイム予測:特徴を考慮した機械学習アプローチ
- Authors: Prashant Kumar Pathak,
- Abstract要約: クラウドデータウェアハウスは、消費されるスロット時間に基づく請求計算を行う。
共有マルチテナント環境では、クエリコストは可変であり、実行前に見積もるのは困難である。
本稿では,事前実行可観測信号のみを用いて,実行前にBigQueryのスロットタイムを予測する機械学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud data warehouses bill compute based on slot-time consumed. In shared multi-tenant environments, query cost is highly variable and hard to estimate before execution, causing budget overruns and degraded scheduling. Static query-planner heuristics fail to capture complex SQL structure, data skew, and workload contention. We present a feature-scoped machine learning approach that predicts BigQuery slot-time before execution using only pre-execution observable signals: a structured query complexity score derived from SQL operator costs, data volume features from planner estimates and workload metadata, and textual features from query text. We deliberately exclude runtime factors (slot-pool utilization, cache state, realized skew) unknowable at submission. The model uses a HistGradientBoostingRegressor trained on log-transformed slot-time, with a TF-IDF + TruncatedSVD-512 text pipeline fused with numeric and categorical features. Trained on 749 queries across seven deployment environments and evaluated out-of-distribution on 746 queries from two held-out environments, the model achieves MAE 1.17 slot-minutes, RMSE 4.71, and 74% explained variance on the full workload. On cost-significant queries (slot-time >= 0.01 min, N=282) the model achieves MAE 3.10 versus 4.95 for a predict-mean baseline and 4.54 for predict-median, a 30-37% reduction. On long-tail queries (>= 20 min, N=22) the model does not outperform trivial baselines, consistent with the hypothesis that long-tail queries are dominated by unobserved runtime factors outside the current feature scope. A complexity-routed dual-model architecture is described as a practical refinement, and directions for closing the long-tail gap are identified as future work.
- Abstract(参考訳): クラウドデータウェアハウスは、消費されるスロット時間に基づく請求計算を行う。
共有マルチテナント環境では、クエリコストは非常に可変であり、実行前に見積もるのは困難である。
静的クエリプランナのヒューリスティックスは、複雑なSQL構造、データスキュー、ワークロード競合をキャプチャできない。
本稿では,SQL演算子コストから得られる構造化クエリ複雑性スコア,プランナの推定値とワークロードメタデータからのデータボリューム特徴,クエリテキストからのテキスト特徴など,事前実行可能な信号のみを用いて,実行前のBigQueryスロットタイムを予測する特徴スコープ機械学習手法を提案する。
実行時要素(スロットプール利用、キャッシュ状態、実現されたスキュー)を提出時に無視する。
このモデルは、ログ変換されたスロットタイムでトレーニングされたHistGradientBoostingRegressorを使用しており、TF-IDF + TruncatedSVD-512テキストパイプラインには数値的および分類的特徴が混在している。
7つのデプロイメント環境にわたる749のクエリをトレーニングし、2つの保留環境から746のクエリをアウト・オブ・ディストリビュートし、このモデルはMAE 1.17のスロット分、RMSE 4.71、およびフルワークロードのばらつきを説明した74%を達成した。
コスト差のあるクエリ(スロットタイム >= 0.01 min, N=282)では、予測平均ベースラインのMAE 3.10と4.95、予測中間値の4.54、30-37%の削減を実現している。
ロングテールクエリ(>=20分、N=22)では、モデルは自明なベースラインを上回りません。
複雑さを減らしたデュアルモデルアーキテクチャを実用的な改良と表現し、長い尾の隙間を埋める方向を将来の作業とみなす。
関連論文リスト
- ARIMA_PLUS: Large-scale, Accurate, Automatic and Interpretable In-Database Time Series Forecasting and Anomaly Detection in Google BigQuery [5.170341372465115]
時系列予測と異常検出は、小売、製造、広告、エネルギーといった産業の実践者にとって一般的な課題である。
ARIMA_PLUSは、(a)正確かつ解釈可能な時系列モデルと(b)スケーラブルで完全に管理されたシステムインフラストラクチャのユニークな組み合わせによって、これらの2つの課題を克服する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T14:18:50Z) - Sleep-time Compute: Beyond Inference Scaling at Test-time [52.87976180878445]
テスト時間計算のスケーリングは、大規模言語モデルが困難な問題を解決するための重要な要素として現れている。
私たちは、クエリが提示される前に、モデルがコンテキストについて"オフライン"できるスリープタイム計算を導入しました。
論文 参考訳(メタデータ) (2025-04-17T17:59:25Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - On Aggregation Queries over Predicted Nearest Neighbors [33.06696811081107]
指定されたオブジェクトの予測近傍における新しいタイプの集約クエリであるAQNNを紹介する。
AQNNは、例えば、医療専門家が「特定の不眠症患者に類似した予測された患者の平均的な収縮血圧」を計算したいという現代の応用で一般的である。
予測は通常、高価なディープラーニングモデルや人間の専門家が関与するため、近似集約を返す問題としてクエリ処理を定式化する。
論文 参考訳(メタデータ) (2025-02-26T04:17:32Z) - Improving DBMS Scheduling Decisions with Fine-grained Performance Prediction on Concurrent Queries -- Extended [15.354441937462271]
IconqSchedは、クエリの実行順序とタイミングを最適化する、新しい、原則化された非侵入スケジューラである。
IconqSchedは、システムランタイムをブラックボックスとして扱う、新しいきめ細かい予測器であるIconqを備えている。
我々はIconqSchedを実際のワークロードトレースを使用したエンドツーエンドランタイムの観点から他のスケジューラと比較する。
論文 参考訳(メタデータ) (2025-01-27T17:55:39Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - How to Query An Oracle? Efficient Strategies to Label Data [59.89900843097016]
機械学習におけるデータセットのラベル付けに専門家の託宣を照会する際の基本的な問題について考察する。
本稿では,サンプルをラベル付けするために,ラウンド・バイ・ラウンドでランダム化されたバッチアルゴリズムを提案し,クエリレートが$O(fracNk2)$であることを示す。
さらに,適応型グリージークエリ方式を提案し,三重項クエリを用いたサンプルあたり平均$approx 0.2N$クエリを実現する。
論文 参考訳(メタデータ) (2021-10-05T20:15:35Z) - Approximating Aggregated SQL Queries With LSTM Networks [31.528524004435933]
本稿では、近似クエリ処理(AQP)とも呼ばれるクエリ近似法を提案する。
我々は、LSTMネットワークを用いて、クエリと結果の関係を学習し、クエリ結果を予測するための高速な推論層を提供する。
提案手法では,1秒間に最大12万のクエリを予測でき,クエリのレイテンシは2ms以下であった。
論文 参考訳(メタデータ) (2020-10-25T16:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。