論文の概要: Are We Ready For Learned Cardinality Estimation?
- arxiv url: http://arxiv.org/abs/2012.06743v3
- Date: Mon, 15 Mar 2021 23:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-10 05:12:03.115363
- Title: Are We Ready For Learned Cardinality Estimation?
- Title(参考訳): 心電図の学習準備はできているか?
- Authors: Xiaoying Wang, Changbo Qu, Weiyuan Wu, Jiannan Wang, Qingqing Zhou
- Abstract要約: 学習したモデルは従来の手法よりも確かに正確であるが、高いトレーニングと推論コストに悩まされることが多い。
次に、これらの学習モデルが動的環境(つまり頻繁なデータ更新)に準備ができているかどうかを調べる。
以上の結果から,学習手法の性能は相関,歪度,ドメインサイズの変化に大きく影響することが示された。
- 参考スコア(独自算出の注目度): 6.703418426908341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cardinality estimation is a fundamental but long unresolved problem in query
optimization. Recently, multiple papers from different research groups
consistently report that learned models have the potential to replace existing
cardinality estimators. In this paper, we ask a forward-thinking question: Are
we ready to deploy these learned cardinality models in production? Our study
consists of three main parts. Firstly, we focus on the static environment
(i.e., no data updates) and compare five new learned methods with eight
traditional methods on four real-world datasets under a unified workload
setting. The results show that learned models are indeed more accurate than
traditional methods, but they often suffer from high training and inference
costs. Secondly, we explore whether these learned models are ready for dynamic
environments (i.e., frequent data updates). We find that they cannot catch up
with fast data up-dates and return large errors for different reasons. For less
frequent updates, they can perform better but there is no clear winner among
themselves. Thirdly, we take a deeper look into learned models and explore when
they may go wrong. Our results show that the performance of learned methods can
be greatly affected by the changes in correlation, skewness, or domain size.
More importantly, their behaviors are much harder to interpret and often
unpredictable. Based on these findings, we identify two promising research
directions (control the cost of learned models and make learned models
trustworthy) and suggest a number of research opportunities. We hope that our
study can guide researchers and practitioners to work together to eventually
push learned cardinality estimators into real database systems.
- Abstract(参考訳): 基数推定はクエリ最適化において基本だが長い未解決問題である。
近年、異なる研究グループの複数の論文は、学習モデルが既存の濃度推定器を置き換える可能性を常に報告している。
本論文では,先進的な疑問を提起する。 これらの学習された濃度モデルを本番環境に展開する準備はできているか?
私たちの研究は3つの主要部分からなる。
まず、静的環境(すなわちデータ更新なし)に注目し、5つの新しい学習方法と4つの実世界のデータセット上の8つの伝統的な方法を比較する。
その結果,学習モデルの精度は従来の手法よりも高いが,高いトレーニングと推論コストに苦しむことが少なくないことがわかった。
次に、これらの学習モデルが動的環境(すなわち頻繁なデータ更新)の準備ができているかどうかを調べる。
最新の高速なデータに追いつき、さまざまな理由で大きなエラーを返せないことが分かっています。
頻繁でない更新では、パフォーマンスが向上するが、その間に明確な勝者は存在しない。
第3に、学習したモデルについてより深く検討し、いつそれがうまくいかなくなるかを探る。
以上の結果から,学習手法の性能は相関,歪度,ドメインサイズの変化に大きく影響することが示された。
さらに重要なことに、彼らの行動は解釈がずっと難しく、しばしば予測できない。
これらの結果から,2つの有望な研究方向性(学習モデルのコストの制御と学習モデルの信頼性の確保)を特定し,多くの研究機会を提案する。
私たちの研究は、研究者と実践者が協力して、最終的に学習された濃度推定器を実際のデータベースシステムにプッシュするのに役立つことを願っています。
関連論文リスト
- CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Bayesian Meta-Prior Learning Using Empirical Bayes [3.666114237131823]
本稿では,情報的事前の欠如とパラメータ学習率の制御能力に対処する階層的経験ベイズ手法を提案する。
本手法は,データ自体から経験的メタプライヤを学習し,その学習率を1次および2次の特徴の分離に利用する。
スパースデータの最適化は、しばしば課題となるため、私たちの発見は有望です。
論文 参考訳(メタデータ) (2020-02-04T05:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。