論文の概要: Is it Bigger than a Breadbox: Efficient Cardinality Estimation for Real World Workloads
- arxiv url: http://arxiv.org/abs/2510.03386v1
- Date: Fri, 03 Oct 2025 17:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.014225
- Title: Is it Bigger than a Breadbox: Efficient Cardinality Estimation for Real World Workloads
- Title(参考訳): ブレッドボックスよりも大きいか - 実世界のワークロードに対する効率的な心電図推定
- Authors: Zixuan Yi, Sami Abu-el-Haija, Yawen Wang, Teja Vemparala, Yannis Chronis, Yu Gan, Michael Burrows, Carsten Binnig, Bryan Perozzi, Ryan Marcus, Fatma Ozcan,
- Abstract要約: DBエンジンはコストモデルに依存して効率的なクエリ実行計画を生成する。
提案手法は,ベンチマークの平均性能を改善するために,マジックナンバーを調整した実装を用いて,クエリの濃度を推定する実用的な手法である。
提案手法はオーバーヘッドを無視し,SoTA学習に基づくエラーメトリクスのアプローチと競合する。
- 参考スコア(独自算出の注目度): 23.75171397684964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DB engines produce efficient query execution plans by relying on cost models. Practical implementations estimate cardinality of queries using heuristics, with magic numbers tuned to improve average performance on benchmarks. Empirically, estimation error significantly grows with query complexity. Alternatively, learning-based estimators offer improved accuracy, but add operational complexity preventing their adoption in-practice. Recognizing that query workloads contain highly repetitive subquery patterns, we learn many simple regressors online, each localized to a pattern. The regressor corresponding to a pattern can be randomly-accessed using hash of graph structure of the subquery. Our method has negligible overhead and competes with SoTA learning-based approaches on error metrics. Further, amending PostgreSQL with our method achieves notable accuracy and runtime improvements over traditional methods and drastically reduces operational costs compared to other learned cardinality estimators, thereby offering the most practical and efficient solution on the Pareto frontier. Concretely, simulating JOB-lite workload on IMDb speeds-up execution by 7.5 minutes (>30%) while incurring only 37 seconds overhead for online learning.
- Abstract(参考訳): DBエンジンはコストモデルに依存して効率的なクエリ実行計画を生成する。
実践的な実装では、ベンチマークの平均性能を改善するために、マジックナンバーを調整したヒューリスティックスを用いてクエリの濃度を推定する。
経験的に、推定誤差はクエリの複雑さによって著しく増加する。
あるいは、学習ベースの推定器は精度を向上するが、運用上の複雑さを追加して、実践的な採用を妨げている。
クエリワークロードには、非常に反復的なサブクエリパターンが含まれていることを認識して、パターンにローカライズされた多数のシンプルな回帰器をオンラインで学習します。
パターンに対応する回帰器は、サブクエリのグラフ構造のハッシュを用いてランダムにアクセスすることができる。
提案手法はオーバーヘッドを無視し,SoTA学習に基づくエラーメトリクスのアプローチと競合する。
さらに,提案手法によるPostgreSQLの修正は,従来の手法よりも顕著な精度と実行時改善を実現し,他の学習基数推定器と比較して運用コストを大幅に削減し,Paretoフロンティア上で最も実用的で効率的なソリューションを提供する。
具体的には、IMDb上でJOB-liteのワークロードをシミュレートすることで、実行を7.5分(>30%)スピードアップすると同時に、オンライン学習のオーバーヘッドは37秒に過ぎません。
関連論文リスト
- Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - PRICE: A Pretrained Model for Cross-Database Cardinality Estimation [78.30959470441442]
クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。
近年のMLベースのCardEst法は, 製造コストが高いため, 高い精度で展開が困難である。
PRetrained MultI-table CardEstモデルであるPRICEを提案する。
論文 参考訳(メタデータ) (2024-06-03T06:21:53Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z) - Kepler: Robust Learning for Faster Parametric Query Optimization [5.6119420695093245]
パラメトリッククエリ最適化のためのエンドツーエンドの学習ベースアプローチを提案する。
Keplerは、複数のデータセット上でのクエリランタイムの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-06-11T22:39:28Z) - Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。
Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。
Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-14T07:31:11Z) - FactorJoin: A New Cardinality Estimation Framework for Join Queries [35.22928513918166]
カーディナリティ推定は、クエリ最適化における最も根本的で難しい問題の1つである。
結合クエリを推定する新しいフレームワークであるFacterJoinを提案する。
評価において、FacterJoinは従来の最先端の学習手法よりも効果的に推定できる。
論文 参考訳(メタデータ) (2022-12-11T15:51:39Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。