論文の概要: CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases
- arxiv url: http://arxiv.org/abs/2408.16170v1
- Date: Wed, 28 Aug 2024 23:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:34:56.813426
- Title: CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases
- Title(参考訳): CardBench:リレーショナルデータベースにおける学習心推定のためのベンチマーク
- Authors: Yannis Chronis, Yawen Wang, Yu Gan, Sami Abu-El-Haija, Chelsea Lin, Carsten Binnig, Fatma Özcan,
- Abstract要約: データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
- 参考スコア(独自算出の注目度): 17.46316633654637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardinality estimation is crucial for enabling high query performance in relational databases. Recently learned cardinality estimation models have been proposed to improve accuracy but there is no systematic benchmark or datasets which allows researchers to evaluate the progress made by new learned approaches and even systematically develop new learned approaches. In this paper, we are releasing a benchmark, containing thousands of queries over 20 distinct real-world databases for learned cardinality estimation. In contrast to other initial benchmarks, our benchmark is much more diverse and can be used for training and testing learned models systematically. Using this benchmark, we explored whether learned cardinality estimation can be transferred to an unseen dataset in a zero-shot manner. We trained GNN-based and transformer-based models to study the problem in three setups: 1-) instance-based, 2-) zero-shot, and 3-) fine-tuned. Our results show that while we get promising results for zero-shot cardinality estimation on simple single table queries; as soon as we add joins, the accuracy drops. However, we show that with fine-tuning, we can still utilize pre-trained models for cardinality estimation, significantly reducing training overheads compared to instance specific models. We are open sourcing our scripts to collect statistics, generate queries and training datasets to foster more extensive research, also from the ML community on the important problem of cardinality estimation and in particular improve on recent directions such as pre-trained cardinality estimation.
- Abstract(参考訳): リレーショナルデータベースにおける高いクエリ性能を実現するためには,カーディナリティ推定が不可欠である。
近年、精度向上のために、学習基準推定モデルが提案されているが、新しい学習アプローチによる進歩を評価し、新しい学習アプローチを体系的に開発することのできる、体系的なベンチマークやデータセットは存在しない。
本稿では,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習基数推定のためにリリースする。
他の初期ベンチマークとは対照的に、我々のベンチマークはより多様であり、学習したモデルを体系的にトレーニングし、テストするのに使用できます。
このベンチマークを用いて,ゼロショット方式で学習された濃度推定を未知のデータセットに転送できるかどうかを検討した。
1-) インスタンスベース、2-) ゼロショット、3-) 微調整の3つの設定で問題を研究するために、GNNベースのモデルとトランスフォーマーベースのモデルを訓練した。
その結果、単純な単一テーブルクエリに対してゼロショットの基数推定の有望な結果が得られる一方で、結合を追加すると、精度が低下することがわかった。
しかし, 微調整では, 定性推定に事前学習モデルを用いることができ, 実例固有のモデルと比較してトレーニングオーバーヘッドを著しく低減できることがわかった。
我々は、統計を収集し、クエリを生成し、データセットを訓練し、より広範な研究を促進するためのスクリプトをオープンソース化しています。
関連論文リスト
- PRICE: A Pretrained Model for Cross-Database Cardinality Estimation [78.30959470441442]
クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。
近年のMLベースのCardEst法は, 製造コストが高いため, 高い精度で展開が困難である。
PRetrained MultI-table CardEstモデルであるPRICEを提案する。
論文 参考訳(メタデータ) (2024-06-03T06:21:53Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Scardina: Scalable Join Cardinality Estimation by Multiple Density
Estimators [8.641606056228675]
機械学習に基づく濃度推定手法が従来の手法に取って代わっている。
スキーマ構造に基づく分割モデルを用いた新しい結合濃度推定法であるScardinaを提案する。
論文 参考訳(メタデータ) (2023-03-31T13:22:28Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - FactorJoin: A New Cardinality Estimation Framework for Join Queries [35.22928513918166]
カーディナリティ推定は、クエリ最適化における最も根本的で難しい問題の1つである。
結合クエリを推定する新しいフレームワークであるFacterJoinを提案する。
評価において、FacterJoinは従来の最先端の学習手法よりも効果的に推定できる。
論文 参考訳(メタデータ) (2022-12-11T15:51:39Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - NeuroCard: One Cardinality Estimator for All Tables [23.723132106252272]
NeuroCardは、データベース全体に1つの神経密度推定器を構築する結合濃度推定器である。
NeuroCardは、最も優れた先行手法よりも精度の高いオーダーを達成している。
論文 参考訳(メタデータ) (2020-06-15T03:21:46Z) - NN-based Transformation of Any SQL Cardinality Estimator for Handling
DISTINCT, AND, OR and NOT [1.8275108630751837]
クエリプランナーは、DISTINCTのクエリや計画において、セット理論の基数(すなわち重複のない)を必要とする。
多くの基数推定法は、重複数をカウントした共役クエリのみの基数の推定に限られる。
本論文では, 有限濃度推定モデルに適用可能な2つの手法について述べる。
論文 参考訳(メタデータ) (2020-04-15T11:20:06Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。