論文の概要: DistJoin: A Decoupled Join Cardinality Estimator based on Adaptive Neural Predicate Modulation
- arxiv url: http://arxiv.org/abs/2503.08994v1
- Date: Wed, 12 Mar 2025 02:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:35:02.684586
- Title: DistJoin: A Decoupled Join Cardinality Estimator based on Adaptive Neural Predicate Modulation
- Title(参考訳): DistJoin: 適応型ニューラル述語変調に基づく非結合型結合型心機能評価器
- Authors: Kaixin Zhang, Hongzhi Wang, Ziqi Li, Yabin Lu, Yingze Li, Yu Yan, Yiming Guan,
- Abstract要約: 多自己回帰モデルを用いた効率的な分布予測に基づく結合濃度推定器DistJoinを紹介する。
この問題を緩和するため、DistJoinは結合濃度を推測するカウントベースのアプローチではなく、選択性に基づくアプローチを採用している。
我々は、JOB-lightとJOB-light-rangeのDistJoinを評価し、その評価を非等価結合条件にまで拡張した。
- 参考スコア(独自算出の注目度): 7.804848721894294
- License:
- Abstract: Research on learned cardinality estimation has achieved significant progress in recent years. However, existing methods still face distinct challenges that hinder their practical deployment in production environments. We conceptualize these challenges as the "Trilemma of Cardinality Estimation", where learned cardinality estimation methods struggle to balance generality, accuracy, and updatability. To address these challenges, we introduce DistJoin, a join cardinality estimator based on efficient distribution prediction using multi-autoregressive models. Our contributions are threefold: (1) We propose a method for estimating both equi and non-equi join cardinality by leveraging the conditional probability distributions of individual tables in a decoupled manner. (2) To meet the requirements of efficient training and inference for DistJoin, we develop Adaptive Neural Predicate Modulation (ANPM), a high-throughput conditional probability distribution estimation model. (3) We formally analyze the variance of existing similar methods and demonstrate that such approaches suffer from variance accumulation issues. To mitigate this problem, DistJoin employs a selectivity-based approach rather than a count-based approach to infer join cardinality, effectively reducing variance. In summary, DistJoin not only represents the first data-driven method to effectively support both equi and non-equi joins but also demonstrates superior accuracy while enabling fast and flexible updates. We evaluate DistJoin on JOB-light and JOB-light-ranges, extending the evaluation to non-equi join conditions. The results demonstrate that our approach achieves the highest accuracy, robustness to data updates, generality, and comparable update and inference speed relative to existing methods.
- Abstract(参考訳): 学習基数推定に関する研究は近年大きな進歩を遂げている。
しかしながら、既存のメソッドは、運用環境への実践的なデプロイを妨げる、明確な課題に直面しています。
我々は,これらの課題を,一般性,正確性,データ化性のバランスをとるために,学習された濃度推定手法が苦労する「心的推定のトリルムマ」として概念化している。
これらの課題に対処するために,多自己回帰モデルを用いた効率的な分布予測に基づく結合濃度推定器であるDistJoinを紹介する。
1) 個別テーブルの条件確率分布を疎結合的に利用し, 等結合濃度と非等結合濃度の両方を推定する手法を提案する。
2)DistJoinの効率的なトレーニングと推論の要件を満たすため,高スループット条件付き確率分布推定モデルであるAdaptive Neural Predicate Modulation(ANPM)を開発した。
(3) 既存の類似手法の分散を解析し, 分散蓄積問題に悩まされていることを示す。
この問題を緩和するため、DistJoinは、結合の濃度を推定するカウントベースのアプローチではなく、選択性に基づくアプローチを採用し、分散を効果的に減少させる。
要約すると、DistJoinは、等値結合と非等値結合の両方を効果的にサポートする最初のデータ駆動メソッドであるだけでなく、高速で柔軟な更新を可能にしながら、優れた精度を示す。
我々は、JOB-lightとJOB-light-rangeのDistJoinを評価し、その評価を非等価結合条件にまで拡張した。
その結果,本手法は,既存の手法と比較して高い精度,データ更新に対する堅牢性,汎用性,および同等の更新速度と推論速度を達成できることが示唆された。
関連論文リスト
- EquivaMap: Leveraging LLMs for Automatic Equivalence Checking of Optimization Formulations [12.962019992859531]
2つの最適化定式化が等価であるかどうかを決定するための公式な基準である準カルプ同値を導入する。
本研究では,大規模な言語モデルを利用して,そのようなマッピングを自動的に検出するフレームワークであるEquivaMapを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:35:32Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Scardina: Scalable Join Cardinality Estimation by Multiple Density
Estimators [8.641606056228675]
機械学習に基づく濃度推定手法が従来の手法に取って代わっている。
スキーマ構造に基づく分割モデルを用いた新しい結合濃度推定法であるScardinaを提案する。
論文 参考訳(メタデータ) (2023-03-31T13:22:28Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Modeling Score Distributions and Continuous Covariates: A Bayesian
Approach [8.772459063453285]
連続共変量に対するマッチングと非マッチスコア分布の生成モデルを構築した。
混合モデルを用いて任意の分布と局所基底関数をキャプチャする。
提案手法の精度と有効性を示す3つの実験を行った。
論文 参考訳(メタデータ) (2020-09-21T02:41:20Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。