論文の概要: PRICE: A Pretrained Model for Cross-Database Cardinality Estimation
- arxiv url: http://arxiv.org/abs/2406.01027v1
- Date: Mon, 3 Jun 2024 06:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:17:50.693133
- Title: PRICE: A Pretrained Model for Cross-Database Cardinality Estimation
- Title(参考訳): PRICE: クロスデータベース・カーディナリティ推定のための事前訓練モデル
- Authors: Tianjing Zeng, Junwei Lan, Jiahong Ma, Wenqing Wei, Rong Zhu, Pengfei Li, Bolin Ding, Defu Lian, Zhewei Wei, Jingren Zhou,
- Abstract要約: クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。
近年のMLベースのCardEst法は, 製造コストが高いため, 高い精度で展開が困難である。
PRetrained MultI-table CardEstモデルであるPRICEを提案する。
- 参考スコア(独自算出の注目度): 78.30959470441442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardinality estimation (CardEst) is essential for optimizing query execution plans. Recent ML-based CardEst methods achieve high accuracy but face deployment challenges due to high preparation costs and lack of transferability across databases. In this paper, we propose PRICE, a PRetrained multI-table CardEst model, which addresses these limitations. PRICE takes low-level but transferable features w.r.t. data distributions and query information and elegantly applies self-attention models to learn meta-knowledge to compute cardinality in any database. It is generally applicable to any unseen new database to attain high estimation accuracy, while its preparation cost is as little as the basic one-dimensional histogram-based CardEst methods. Moreover, PRICE can be finetuned to further enhance its performance on any specific database. We pretrained PRICE using 30 diverse datasets, completing the process in about 5 hours with a resulting model size of only about 40MB. Evaluations show that PRICE consistently outperforms existing methods, achieving the highest estimation accuracy on several unseen databases and generating faster execution plans with lower overhead. After finetuning with a small volume of databasespecific queries, PRICE could even find plans very close to the optimal ones. Meanwhile, PRICE is generally applicable to different settings such as data updates, data scaling, and query workload shifts. We have made all of our data and codes publicly available at https://github.com/StCarmen/PRICE.
- Abstract(参考訳): クエリ実行計画の最適化には,カーディナリティ推定(CardEst)が不可欠である。
最近のMLベースのCardEst手法は、データベース間の転送可能性の欠如と高い準備コストのため、高い精度を達成できるが、デプロイメント上の課題に直面している。
本稿では,これらの制約に対処するPRetrained MultI-table CardEstモデルであるPRICEを提案する。
PRICEは低レベルだが転送可能なデータ分散とクエリ情報を取得し、メタ知識を学習するために自己認識モデルをエレガントに適用し、任意のデータベースの濃度を計算する。
一般に、その作成コストは基本的な1次元ヒストグラムベースのCardEst法とほとんど変わらないが、高い推定精度を達成するために、目に見えない新しいデータベースに適用できる。
さらに、PRICEを微調整することで、特定のデータベース上での性能をさらに向上することができる。
30の多様なデータセットを使用してPRICEを事前トレーニングし、約5時間で処理を完了し、結果としてモデルサイズは約40MBになった。
評価の結果、PRICEは既存の手法を一貫して上回り、いくつかの未確認データベース上で最高の推定精度を達成し、オーバーヘッドを低くして高速な実行計画を生成することがわかった。
少量のデータベース固有のクエリで微調整した後、PRICEは最適なクエリに非常に近いプランを見つけることができた。
一方、PRICEは一般的に、データ更新、データスケーリング、クエリのワークロードシフトなど、さまざまな設定に適用できます。
私たちはすべてのデータとコードをhttps://github.com/StCarmen/PRICE.comで公開しました。
関連論文リスト
- CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - Kepler: Robust Learning for Faster Parametric Query Optimization [5.6119420695093245]
パラメトリッククエリ最適化のためのエンドツーエンドの学習ベースアプローチを提案する。
Keplerは、複数のデータセット上でのクエリランタイムの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-06-11T22:39:28Z) - Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。
Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。
Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-02-14T07:31:11Z) - Glue: Adaptively Merging Single Table Cardinality to Estimate Join Query
Size [35.1093718746362]
カーディナリティ推定(CardEst)は、高品質なクエリプランを生成する上で重要な役割を果たす。
CardEstの最も難しい問題、すなわち、複数のテーブル上でジョインクエリサイズを推定する方法は、広く解決されていない。
本稿では,テーブル単位のCardEst結果をサポートするGlueという,非常に一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-07T02:46:46Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Cardinality Estimation in DBMS: A Comprehensive Benchmark Evaluation [43.27881697012329]
カーディナリティ推定(CardEst)は、クエリワークロードの高品質なクエリプランを生成する上で重要な役割を果たす。
本稿では,実際のデータセットにおけるCardEst手法の有効性を包括的かつ体系的に比較する。
我々はCardEstの新しいベンチマークを構築し、それは新しい複雑な現実世界STATSと多様なクエリSTATS-CEBを含んでいる。
論文 参考訳(メタデータ) (2021-09-13T11:25:02Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Robust Generalization and Safe Query-Specialization in Counterfactual
Learning to Rank [62.28965622396868]
本稿では,特徴量に基づく対実的学習手法であるgenSPECアルゴリズムについて紹介する。
以上の結果から,GENSPECは十分なクリックデータを持つクエリに対して,ほとんどあるいはノイズのないクエリに対してロバストな振る舞いを持ちながら,最適なパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2021-02-11T13:17:26Z) - A Survey on Advancing the DBMS Query Optimizer: Cardinality Estimation,
Cost Model, and Plan Enumeration [17.75042918159419]
コストベースのアルゴリズムは、現在のほとんどのデータベースシステムで採用されている。
コストモデル、カーディナリティでは、オペレータによる数字の数は重要な役割を果たします。
基数推定の不正確さ、コストの誤差、および巨大な計画空間モデルにより、アルゴリズムは複雑なクエリに対して妥当な時間で最適な実行計画を見つけることができない。
論文 参考訳(メタデータ) (2021-01-05T13:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。