論文の概要: NN-based Transformation of Any SQL Cardinality Estimator for Handling
DISTINCT, AND, OR and NOT
- arxiv url: http://arxiv.org/abs/2004.07009v1
- Date: Wed, 15 Apr 2020 11:20:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 04:16:23.945599
- Title: NN-based Transformation of Any SQL Cardinality Estimator for Handling
DISTINCT, AND, OR and NOT
- Title(参考訳): NNを用いたDISTINCT, AND, OR, NOT処理用SQL心電図の変換
- Authors: Rojeh Hayek, Oded Shmueli
- Abstract要約: クエリプランナーは、DISTINCTのクエリや計画において、セット理論の基数(すなわち重複のない)を必要とする。
多くの基数推定法は、重複数をカウントした共役クエリのみの基数の推定に限られる。
本論文では, 有限濃度推定モデルに適用可能な2つの手法について述べる。
- 参考スコア(独自算出の注目度): 1.8275108630751837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SQL queries, with the AND, OR, and NOT operators, constitute a broad class of
highly used queries. Thus, their cardinality estimation is important for query
optimization. In addition, a query planner requires the set-theoretic
cardinality (i.e., without duplicates) for queries with DISTINCT as well as in
planning; for example, when considering sorting options. Yet, despite the
importance of estimating query cardinalities in the presence of DISTINCT, AND,
OR, and NOT, many cardinality estimation methods are limited to estimating
cardinalities of only conjunctive queries with duplicates counted.
The focus of this work is on two methods for handling this deficiency that
can be applied to any limited cardinality estimation model. First, we describe
a specialized deep learning scheme, PUNQ, which is tailored to representing
conjunctive SQL queries and predicting the percentage of unique rows in the
query's result with duplicate rows. Using the predicted percentages obtained
via PUNQ, we are able to transform any cardinality estimation method that only
estimates for conjunctive queries, and which estimates cardinalities with
duplicates (e.g., MSCN), to a method that estimates queries cardinalities
without duplicates. This enables estimating cardinalities of queries with the
DISTINCT keyword. In addition, we describe a recursive algorithm, GenCrd, for
extending any cardinality estimation method M that only handles conjunctive
queries to one that estimates cardinalities for more general queries (that
include AND, OR, and NOT), without changing the method M itself.
Our evaluation is carried out on a challenging, real-world database with
general queries that include either the DISTINCT keyword or the AND, OR, and
NOT operators. Experimentally, we show that the proposed methods obtain
accurate cardinality estimates with the same level of accuracy as that of the
original transformed methods.
- Abstract(参考訳): AND、OR、NOT演算子を含むSQLクエリは、非常によく使われているクエリの幅広いクラスを構成する。
したがって、その濃度推定はクエリ最適化に重要である。
さらに、クエリプランナは、例えばソートオプションを検討する際に、DISTINCTのクエリや計画において、セット理論の濃度(すなわち重複のない)を必要とする。
しかし, DISTINCT, AND, OR, NOTの存在下では, 問合せ基準を推定することが重要であるにもかかわらず, 重複をカウントした共役クエリのみの問合せ基準を推定することに限定されている。
この研究の焦点は、任意の限られた濃度推定モデルに適用できるこの欠陥を扱う2つの方法である。
まず,連結型sqlクエリを表現し,クエリ結果のユニークな行の割合を重複行で予測する,特別なディープラーニングスキームである punq について述べる。
punqによって得られた予測割合を用いて、連結クエリのみを推定し、重複のある基数(例えばmscn)で基数を推定する任意の基数推定方法を、重複せずにクエリ基数を推定する手法に変換することができる。
これにより、クエリの濃度をDISTINCTキーワードで推定できる。
さらに,結合的問合せのみを扱う任意の濃度推定法mを,より一般的な問合せ(含まない,含まない)の基数を推定する方法m自体を変更することなく拡張する再帰的アルゴリズムgencrdについて述べる。
本評価は,特定のキーワードやand,あるいは演算子を含む汎用クエリを持つ,挑戦的で実世界のデータベース上で実施する。
実験により,提案手法は元の変換手法と同じ精度で精度の高い濃度推定値が得られることを示した。
関連論文リスト
- pEBR: A Probabilistic Approach to Embedding Based Retrieval [4.8338111302871525]
埋め込み検索は、クエリとアイテムの両方の共有セマンティック表現空間を学習することを目的としている。
現在の産業実践では、検索システムは典型的には、異なるクエリに対して一定数のアイテムを検索する。
論文 参考訳(メタデータ) (2024-10-25T07:14:12Z) - CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - Adaptive Retrieval and Scalable Indexing for k-NN Search with Cross-Encoders [77.84801537608651]
クエリ-イムペアを共同で符号化することで類似性を計算するクロスエンコーダ(CE)モデルは、クエリ-イム関連性を推定する埋め込みベースモデル(デュアルエンコーダ)よりも優れている。
本稿では,潜時クエリとアイテム埋め込みを効率的に計算してCEスコアを近似し,CE類似度を近似したk-NN探索を行うスパース行列分解法を提案する。
論文 参考訳(メタデータ) (2024-05-06T17:14:34Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Scardina: Scalable Join Cardinality Estimation by Multiple Density
Estimators [8.641606056228675]
機械学習に基づく濃度推定手法が従来の手法に取って代わっている。
スキーマ構造に基づく分割モデルを用いた新しい結合濃度推定法であるScardinaを提案する。
論文 参考訳(メタデータ) (2023-03-31T13:22:28Z) - FactorJoin: A New Cardinality Estimation Framework for Join Queries [35.22928513918166]
カーディナリティ推定は、クエリ最適化における最も根本的で難しい問題の1つである。
結合クエリを推定する新しいフレームワークであるFacterJoinを提案する。
評価において、FacterJoinは従来の最先端の学習手法よりも効果的に推定できる。
論文 参考訳(メタデータ) (2022-12-11T15:51:39Z) - Knowledge Base Question Answering by Case-based Reasoning over Subgraphs [81.22050011503933]
本モデルでは,既存のKG補完アルゴリズムよりも複雑な推論パターンを必要とする問合せに対して,より効果的に答えることを示す。
提案モデルは、KBQAベンチマークの最先端モデルよりも優れているか、競合的に動作する。
論文 参考訳(メタデータ) (2022-02-22T01:34:35Z) - Uniformity in Heterogeneity:Diving Deep into Count Interval Partition
for Crowd Counting [56.44300325295678]
一様誤差分割(UEP)と呼ばれる新しいカウント間隔分割基準を提案する。
MCP基準は、推論中にそのカウント値を表すために、各インターバルのベストカウントプロキシを選択する。
統一誤り分割ネットワーク(UEPNet)と呼ばれる単純で効果的なモデルを提案する。
論文 参考訳(メタデータ) (2021-07-27T06:24:15Z) - Surprise: Result List Truncation via Extreme Value Theory [92.5817701697342]
そこで本研究では,問合せ時における可逆的・校正的関連度スコアを,ランク付けされたスコアに留まらず,統計的に生成する手法を提案する。
本稿では、画像、テキスト、IRデータセット間での結果リストのトランケーションタスクにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2020-10-19T19:15:50Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。