論文の概要: Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation
- arxiv url: http://arxiv.org/abs/2109.05877v1
- Date: Mon, 13 Sep 2021 11:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 01:09:36.859472
- Title: Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation
- Title(参考訳): DBMSにおける心性評価 : 総合的ベンチマーク評価
- Authors: Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan,
Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren
Zhou, Jiangneng Li, Bin Cui
- Abstract要約: カーディナリティ推定(CardEst)は、クエリワークロードの高品質なクエリプランを生成する上で重要な役割を果たす。
本稿では,実際のデータセットにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
本稿では,Q-Errorの限界を克服するCardEst法の性能を評価するための新しい指標P-Errorを提案する。
- 参考スコア(独自算出の注目度): 43.27881697012329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardinality estimation (CardEst) plays a significant role in generating
high-quality query plans for a query optimizer in DBMS. In the last decade, an
increasing number of advanced CardEst methods (especially ML-based) have been
proposed with outstanding estimation accuracy and inference latency. However,
there exists no study that systematically evaluates the quality of these
methods and answer the fundamental problem: to what extent can these methods
improve the performance of query optimizer in real-world settings, which is the
ultimate goal of a CardEst method. In this paper, we comprehensively and
systematically compare the effectiveness of CardEst methods in a real DBMS. We
establish a new benchmark for CardEst, which contains a new complex realworld
dataset STATS and a diverse query workload STATS-CEB. We integrate multiple
most representative CardEst methods into an open-source database system
PostgreSQL, and comprehensively evaluate their true effectiveness in improving
query plan quality, and other important aspects affecting their applicability,
ranging from inference latency, model size, and training time, to update
efficiency and accuracy. We obtain a number of key findings for the CardEst
methods, under different data and query settings. Furthermore, we find that the
widely used estimation accuracy metric(Q-Error) cannot distinguish the
importance of different sub-plan queries during query optimization and thus
cannot truly reflect the query plan quality generated by CardEst methods.
Therefore, we propose a new metric P-Error to evaluate the performance of
CardEst methods, which overcomes the limitation of Q-Error and is able to
reflect the overall end-to-end performance of CardEst methods. We have made all
of the benchmark data and evaluation code publicly available at
https://github.com/Nathaniel-Han/Endto-End-CardEst-Benchmark.
- Abstract(参考訳): カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。
過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。
しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。
本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。
複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。
異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。
さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。
そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。
ベンチマークデータと評価コードは、https://github.com/Nathaniel-Han/Endto-End-CardEst-Benchmarkで公開しました。
関連論文リスト
- Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。
Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。
Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-14T07:31:11Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Glue: Adaptively Merging Single Table Cardinality to Estimate Join Query
Size [35.1093718746362]
カーディナリティ推定(CardEst)は、高品質なクエリプランを生成する上で重要な役割を果たす。
CardEstの最も難しい問題、すなわち、複数のテーブル上でジョインクエリサイズを推定する方法は、広く解決されていない。
本稿では,テーブル単位のCardEst結果をサポートするGlueという,非常に一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-07T02:46:46Z) - BayesCard: Revitilizing Bayesian Frameworks for Cardinality Estimation [25.871965040723772]
望ましいCardEstメソッドは、優れたアルゴリズム性能を達成し、さまざまなデータ設定に安定し、システムデプロイメントに親しみやすくする必要がある。
BayesCardはBNの利点、すなわち高い推定精度と解釈可能性を引き継ぐ最初のフレームワークである。
同等かそれ以上の精度,1-2桁の高速化,1-3桁のトレーニング時間,1-3桁のモデルサイズ,1-2桁の高速更新を実現している。
論文 参考訳(メタデータ) (2020-12-29T13:21:18Z) - FLAT: Fast, Lightweight and Accurate Method for Cardinality Estimation [45.98791307420517]
確率計算の高速化とグラフィカルモデルサイズの軽量化,推定精度の向上を実現したCardEst法であるFLATを提案する。
FLATは、基礎となるFSPNモデル上で、ほぼ線形時間で効率的なオンライン確率計算をサポートする。
単一のテーブルクエリとマルチテーブルジョインクエリの両方の濃度を推定できる。
1〜5桁の精度、1〜3桁の確率速度、1~2桁のストレージコストを実現する。
論文 参考訳(メタデータ) (2020-11-18T01:14:45Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。