論文の概要: DistJoin: A Decoupled Join Cardinality Estimator based on Adaptive Neural Predicate Modulation
- arxiv url: http://arxiv.org/abs/2503.08994v1
- Date: Wed, 12 Mar 2025 02:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.583838
- Title: DistJoin: A Decoupled Join Cardinality Estimator based on Adaptive Neural Predicate Modulation
- Title(参考訳): DistJoin: 適応型ニューラル述語変調に基づく非結合型結合型心機能評価器
- Authors: Kaixin Zhang, Hongzhi Wang, Ziqi Li, Yabin Lu, Yingze Li, Yu Yan, Yiming Guan,
- Abstract要約: 多自己回帰モデルを用いた効率的な分布予測に基づく結合濃度推定器DistJoinを紹介する。
この問題を緩和するため、DistJoinは結合濃度を推測するカウントベースのアプローチではなく、選択性に基づくアプローチを採用している。
我々は、JOB-lightとJOB-light-rangeのDistJoinを評価し、その評価を非等価結合条件にまで拡張した。
- 参考スコア(独自算出の注目度): 7.804848721894294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on learned cardinality estimation has achieved significant progress in recent years. However, existing methods still face distinct challenges that hinder their practical deployment in production environments. We conceptualize these challenges as the "Trilemma of Cardinality Estimation", where learned cardinality estimation methods struggle to balance generality, accuracy, and updatability. To address these challenges, we introduce DistJoin, a join cardinality estimator based on efficient distribution prediction using multi-autoregressive models. Our contributions are threefold: (1) We propose a method for estimating both equi and non-equi join cardinality by leveraging the conditional probability distributions of individual tables in a decoupled manner. (2) To meet the requirements of efficient training and inference for DistJoin, we develop Adaptive Neural Predicate Modulation (ANPM), a high-throughput conditional probability distribution estimation model. (3) We formally analyze the variance of existing similar methods and demonstrate that such approaches suffer from variance accumulation issues. To mitigate this problem, DistJoin employs a selectivity-based approach rather than a count-based approach to infer join cardinality, effectively reducing variance. In summary, DistJoin not only represents the first data-driven method to effectively support both equi and non-equi joins but also demonstrates superior accuracy while enabling fast and flexible updates. We evaluate DistJoin on JOB-light and JOB-light-ranges, extending the evaluation to non-equi join conditions. The results demonstrate that our approach achieves the highest accuracy, robustness to data updates, generality, and comparable update and inference speed relative to existing methods.
- Abstract(参考訳): 学習基数推定に関する研究は近年大きな進歩を遂げている。
しかしながら、既存のメソッドは、運用環境への実践的なデプロイを妨げる、明確な課題に直面しています。
我々は,これらの課題を,一般性,正確性,データ化性のバランスをとるために,学習された濃度推定手法が苦労する「心的推定のトリルムマ」として概念化している。
これらの課題に対処するために,多自己回帰モデルを用いた効率的な分布予測に基づく結合濃度推定器であるDistJoinを紹介する。
1) 個別テーブルの条件確率分布を疎結合的に利用し, 等結合濃度と非等結合濃度の両方を推定する手法を提案する。
2)DistJoinの効率的なトレーニングと推論の要件を満たすため,高スループット条件付き確率分布推定モデルであるAdaptive Neural Predicate Modulation(ANPM)を開発した。
(3) 既存の類似手法の分散を解析し, 分散蓄積問題に悩まされていることを示す。
この問題を緩和するため、DistJoinは、結合の濃度を推定するカウントベースのアプローチではなく、選択性に基づくアプローチを採用し、分散を効果的に減少させる。
要約すると、DistJoinは、等値結合と非等値結合の両方を効果的にサポートする最初のデータ駆動メソッドであるだけでなく、高速で柔軟な更新を可能にしながら、優れた精度を示す。
我々は、JOB-lightとJOB-light-rangeのDistJoinを評価し、その評価を非等価結合条件にまで拡張した。
その結果,本手法は,既存の手法と比較して高い精度,データ更新に対する堅牢性,汎用性,および同等の更新速度と推論速度を達成できることが示唆された。
関連論文リスト
- Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - Preference Construction: A Bayesian Interactive Preference Elicitation Framework Based on Monte Carlo Tree Search [6.473114631834851]
限定的な相互作用ラウンドにおいて、受講者の選好を効率的に捉えるための新しい選好学習フレームワークを提案する。
まず、参加者の嗜好モデルを予測するための変分ベイズ的アプローチを開発する。
第2に,累積不確実性低減を最大化する適応的問合せ政策を提案する。
第3に、このフレームワークを優先情報としてペア比較を行い、多重基準決定支援に適用する。
論文 参考訳(メタデータ) (2025-03-19T12:16:54Z) - EquivaMap: Leveraging LLMs for Automatic Equivalence Checking of Optimization Formulations [12.962019992859531]
2つの最適化定式化が等価であるかどうかを決定するための公式な基準である準カルプ同値を導入する。
本研究では,大規模な言語モデルを利用して,そのようなマッピングを自動的に検出するフレームワークであるEquivaMapを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:35:32Z) - Prompt-Matcher: Leveraging Large Models to Reduce Uncertainty in Schema Matching Results [1.13107643869251]
本稿では,大規模言語モデルの特定のプロンプトを用いた細粒度対応検証に基づく新しい手法を提案する。
本手法は,(1)対応選択アルゴリズム,(2)対応検証,(3)確率分布の更新の3つの主成分からなる反復ループである。
本稿では,計算効率においてブルートアルゴリズムを著しく上回る新しい$(1-1/e)$-approximationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-24T16:54:08Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Duet: efficient and scalable hybriD neUral rElation undersTanding [9.231883521214241]
デュエットは、サンプリングや微分不可能なプロセスなしで直接濃度を推定する安定で効率的でスケーラブルなハイブリッド手法である。
デュエットはCPU上での推論コストがGPUで学んだほとんどのメソッドよりも低い。
論文 参考訳(メタデータ) (2023-07-25T13:42:22Z) - Scardina: Scalable Join Cardinality Estimation by Multiple Density
Estimators [8.641606056228675]
機械学習に基づく濃度推定手法が従来の手法に取って代わっている。
スキーマ構造に基づく分割モデルを用いた新しい結合濃度推定法であるScardinaを提案する。
論文 参考訳(メタデータ) (2023-03-31T13:22:28Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。