論文の概要: Data-Agnostic Cardinality Learning from Imperfect Workloads
- arxiv url: http://arxiv.org/abs/2506.16007v1
- Date: Thu, 19 Jun 2025 03:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.932822
- Title: Data-Agnostic Cardinality Learning from Imperfect Workloads
- Title(参考訳): 不完全なワークロードから学ぶデータ非依存型心臓病
- Authors: Peizhi Wu, Rong Kang, Tieying Zhang, Jianjun Chen, Ryan Marcus, Zachary G. Ives,
- Abstract要約: 本稿では,実世界の制約下での動作を意図した,データに依存しない定性学習システムGRASPを提案する。
GRASPは、統合テンプレートを見えないように一般化し、テンプレートの不均衡を結合するのに堅牢である。
GRASPは、不完全なワークロードにおける既存のクエリ駆動モデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 10.369548494491623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cardinality estimation (CardEst) is a critical aspect of query optimization. Traditionally, it leverages statistics built directly over the data. However, organizational policies (e.g., regulatory compliance) may restrict global data access. Fortunately, query-driven cardinality estimation can learn CardEst models using query workloads. However, existing query-driven models often require access to data or summaries for best performance, and they assume perfect training workloads with complete and balanced join templates (or join graphs). Such assumptions rarely hold in real-world scenarios, in which join templates are incomplete and imbalanced. We present GRASP, a data-agnostic cardinality learning system designed to work under these real-world constraints. GRASP's compositional design generalizes to unseen join templates and is robust to join template imbalance. It also introduces a new per-table CardEst model that handles value distribution shifts for range predicates, and a novel learned count sketch model that captures join correlations across base relations. Across three database instances, we demonstrate that GRASP consistently outperforms existing query-driven models on imperfect workloads, both in terms of estimation accuracy and query latency. Remarkably, GRASP achieves performance comparable to, or even surpassing, traditional approaches built over the underlying data on the complex CEB-IMDb-full benchmark -- despite operating without any data access and using only 10% of all possible join templates.
- Abstract(参考訳): カーディナリティ推定(CardEst)は、クエリ最適化の重要な側面である。
伝統的に、データの上に構築された統計を利用する。
しかし、組織ポリシー(例えば、規制コンプライアンス)は、グローバルなデータアクセスを制限する可能性がある。
幸いなことに、クエリ駆動の濃度推定は、クエリワークロードを使用してCardEstモデルを学ぶことができる。
しかしながら、既存のクエリ駆動モデルは、最高のパフォーマンスのためにデータや要約へのアクセスを必要とすることが多く、完全でバランスの取れた結合テンプレート(あるいは結合グラフ)を備えた完璧なトレーニングワークロードを前提としています。
このような仮定は、結合テンプレートが不完全で不均衡である実世界のシナリオでは、ほとんど成り立たない。
本稿では、これらの実世界の制約の下で動くように設計された、データに依存しない定性学習システムGRASPを提案する。
GRASPのコンポジションデザインは、目に見えない結合テンプレートに一般化され、テンプレートの不均衡に結合する堅牢である。
また、値分布シフトを範囲述語で処理する新しいテーブル単位のCardEstモデルや、ベース関係間の結合関係をキャプチャする新しい学習数スケッチモデルも導入されている。
3つのデータベースインスタンスで、GRASPは推定精度とクエリレイテンシの両方において、不完全なワークロードにおける既存のクエリ駆動モデルよりも一貫して優れています。
注目すべきなのは、GRASPは、複雑なCEB-IMDb-fullベンチマークの基盤となるデータの上に構築された従来のアプローチに匹敵する、あるいは上回るパフォーマンスを実現していることだ。
関連論文リスト
- KG-CF: Knowledge Graph Completion with Context Filtering under the Guidance of Large Language Models [55.39134076436266]
KG-CFはランキングベースの知識グラフ補完タスクに適したフレームワークである。
KG-CFは、LLMの推論能力を活用して、無関係なコンテキストをフィルタリングし、現実世界のデータセットで優れた結果を得る。
論文 参考訳(メタデータ) (2025-01-06T01:52:15Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - CardBench: A Benchmark for Learned Cardinality Estimation in Relational Databases [17.46316633654637]
データベースにおける高いクエリパフォーマンスを実現するには、心臓病推定が不可欠である。
研究者が新しい学習アプローチによる進捗を評価することができるような、体系的なベンチマークやデータセットは存在しない。
我々は,20の異なる実世界のデータベースに数千のクエリを格納したベンチマークを,学習された濃度推定のためにリリースした。
論文 参考訳(メタデータ) (2024-08-28T23:25:25Z) - GFS: Graph-based Feature Synthesis for Prediction over Relational
Databases [39.975491511390985]
グラフベース特徴合成(GFS)と呼ばれる新しいフレームワークを提案する。
GFSは関係データベースを異種グラフデータベースとして定式化する。
4つの実世界のマルチテーブルリレーショナルデータベースに対する実験では、GFSはリレーショナルデータベース用に設計された従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:54:40Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Model Joins: Enabling Analytics Over Joins of Absent Big Tables [9.797488793708624]
この作業では、これらの課題に対処するフレームワーク、Model Joinが紹介されている。
フレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
論文 参考訳(メタデータ) (2022-06-21T14:28:24Z) - Making Table Understanding Work in Practice [9.352813774921655]
表理解モデルをデプロイする上での3つの課題について論じ,それに対応するためのフレームワークを提案する。
本稿では、GitTablesでトレーニングされたハイブリッドモデルをカプセル化し、軽量なHuman-in-the-loopアプローチを統合してモデルをカスタマイズするSigmaTyperを提案する。
論文 参考訳(メタデータ) (2021-09-11T03:38:24Z) - Robust Generalization and Safe Query-Specialization in Counterfactual
Learning to Rank [62.28965622396868]
本稿では,特徴量に基づく対実的学習手法であるgenSPECアルゴリズムについて紹介する。
以上の結果から,GENSPECは十分なクリックデータを持つクエリに対して,ほとんどあるいはノイズのないクエリに対してロバストな振る舞いを持ちながら,最適なパフォーマンスを実現することが示唆された。
論文 参考訳(メタデータ) (2021-02-11T13:17:26Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。