論文の概要: Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation
- arxiv url: http://arxiv.org/abs/2109.05877v2
- Date: Tue, 14 Sep 2021 08:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 14:07:14.796178
- Title: Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation
- Title(参考訳): DBMSにおける心性評価 : 総合的ベンチマーク評価
- Authors: Yuxing Han, Ziniu Wu, Peizhi Wu, Rong Zhu, Jingyi Yang, Liang Wei Tan,
Kai Zeng, Gao Cong, Yanzhao Qin, Andreas Pfadler, Zhengping Qian, Jingren
Zhou, Jiangneng Li, Bin Cui
- Abstract要約: カーディナリティ推定(CardEst)は、クエリワークロードの高品質なクエリプランを生成する上で重要な役割を果たす。
本稿では,実際のデータセットにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
我々はCardEstの新しいベンチマークを構築し、それは新しい複雑な現実世界STATSと多様なクエリSTATS-CEBを含んでいる。
- 参考スコア(独自算出の注目度): 43.27881697012329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardinality estimation (CardEst) plays a significant role in generating
high-quality query plans for a query optimizer in DBMS. In the last decade, an
increasing number of advanced CardEst methods (especially ML-based) have been
proposed with outstanding estimation accuracy and inference latency. However,
there exists no study that systematically evaluates the quality of these
methods and answer the fundamental problem: to what extent can these methods
improve the performance of query optimizer in real-world settings, which is the
ultimate goal of a CardEst method. In this paper, we comprehensively and
systematically compare the effectiveness of CardEst methods in a real DBMS. We
establish a new benchmark for CardEst, which contains a new complex real-world
dataset STATS and a diverse query workload STATS-CEB. We integrate multiple
most representative CardEst methods into an open-source database system
PostgreSQL, and comprehensively evaluate their true effectiveness in improving
query plan quality, and other important aspects affecting their applicability,
ranging from inference latency, model size, and training time, to update
efficiency and accuracy. We obtain a number of key findings for the CardEst
methods, under different data and query settings. Furthermore, we find that the
widely used estimation accuracy metric(Q-Error) cannot distinguish the
importance of different sub-plan queries during query optimization and thus
cannot truly reflect the query plan quality generated by CardEst methods.
Therefore, we propose a new metric P-Error to evaluate the performance of
CardEst methods, which overcomes the limitation of Q-Error and is able to
reflect the overall end-to-end performance of CardEst methods. We have made all
of the benchmark data and evaluation code publicly available at
https://github.com/Nathaniel-Han/End-to-End-CardEst-Benchmark.
- Abstract(参考訳): カーディナリティ推定(CardEst)はDBMSのクエリオプティマイザのための高品質なクエリプランを生成する上で重要な役割を果たす。
過去10年間で、予測精度と推論遅延に優れた高度なCardEstメソッド(特にMLベース)が提案されている。
しかし、これらの手法の質を体系的に評価し、基本的な問題に答える研究は存在せず、この手法が現実世界の設定においてクエリオプティマイザの性能をどの程度向上させるかは、カードレストの究極の目標である。
本稿では,実際のDBMSにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
CardEstの新しいベンチマークは、新しい複雑な実世界のデータセットSTATSと多様なクエリワークロードSTATS-CEBを含んでいる。
複数の代表的なcardestメソッドをオープンソースのデータベースシステムpostgresqlに統合し,クエリプランの品質向上や,推論レイテンシやモデルサイズ,トレーニング時間など,その適用性に影響する重要な側面を包括的に評価して,効率と正確性を更新する。
異なるデータとクエリの設定の下で,cardestメソッドに対する多くの重要な発見を得た。
さらに,広く用いられている推定精度指標 (q-error) は,クエリ最適化において異なるサブプランクエリの重要性を識別できないため,cardestメソッドによって生成されたクエリプランの品質を真に反映できないことがわかった。
そこで本研究では,Q-Errorの限界を克服し,CardEst法全体のエンドツーエンド性能を反映できる,CardEst法の性能を評価するための新しい測度P-Errorを提案する。
ベンチマークデータと評価コードは、https://github.com/Nathaniel-Han/End-to-End-CardEst-Benchmarkで公開しました。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - PRICE: A Pretrained Model for Cross-Database Cardinality Estimation [78.30959470441442]
クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。
近年のMLベースのCardEst法は, 製造コストが高いため, 高い精度で展開が困難である。
PRetrained MultI-table CardEstモデルであるPRICEを提案する。
論文 参考訳(メタデータ) (2024-06-03T06:21:53Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Glue: Adaptively Merging Single Table Cardinality to Estimate Join Query
Size [35.1093718746362]
カーディナリティ推定(CardEst)は、高品質なクエリプランを生成する上で重要な役割を果たす。
CardEstの最も難しい問題、すなわち、複数のテーブル上でジョインクエリサイズを推定する方法は、広く解決されていない。
本稿では,テーブル単位のCardEst結果をサポートするGlueという,非常に一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-07T02:46:46Z) - BayesCard: Revitilizing Bayesian Frameworks for Cardinality Estimation [25.871965040723772]
望ましいCardEstメソッドは、優れたアルゴリズム性能を達成し、さまざまなデータ設定に安定し、システムデプロイメントに親しみやすくする必要がある。
BayesCardはBNの利点、すなわち高い推定精度と解釈可能性を引き継ぐ最初のフレームワークである。
同等かそれ以上の精度,1-2桁の高速化,1-3桁のトレーニング時間,1-3桁のモデルサイズ,1-2桁の高速更新を実現している。
論文 参考訳(メタデータ) (2020-12-29T13:21:18Z) - FLAT: Fast, Lightweight and Accurate Method for Cardinality Estimation [45.98791307420517]
確率計算の高速化とグラフィカルモデルサイズの軽量化,推定精度の向上を実現したCardEst法であるFLATを提案する。
FLATは、基礎となるFSPNモデル上で、ほぼ線形時間で効率的なオンライン確率計算をサポートする。
単一のテーブルクエリとマルチテーブルジョインクエリの両方の濃度を推定できる。
1〜5桁の精度、1〜3桁の確率速度、1~2桁のストレージコストを実現する。
論文 参考訳(メタデータ) (2020-11-18T01:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。