論文の概要: Forgetting by Pruning: Data Deletion in Join Cardinality Estimation
- arxiv url: http://arxiv.org/abs/2511.20293v1
- Date: Tue, 25 Nov 2025 13:25:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.476835
- Title: Forgetting by Pruning: Data Deletion in Join Cardinality Estimation
- Title(参考訳): プルーニングによる予測: 結合心性推定におけるデータ削除
- Authors: Chaowei He, Yuanjun Liu, Qingzhi Ma, Shenyuan Ren, Xizhao Luo, Lei Zhao, An Liu,
- Abstract要約: Cardinality Estimation Pruning (CEP) は、マルチテーブル学習CEシステム向けに設計された非学習フレームワークである。
CEPは、特に高い削除率の下で、マルチテーブルシナリオにおいて、一貫して最低のQエラーを達成する。
CEP は収束を著しく減少させ、微調整時間の 0.3%-2.5% という無視可能な計算オーバーヘッドをもたらす。
- 参考スコア(独自算出の注目度): 10.856659576565663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine unlearning in learned cardinality estimation (CE) systems presents unique challenges due to the complex distributional dependencies in multi-table relational data. Specifically, data deletion, a core component of machine unlearning, faces three critical challenges in learned CE models: attribute-level sensitivity, inter-table propagation and domain disappearance leading to severe overestimation in multi-way joins. We propose Cardinality Estimation Pruning (CEP), the first unlearning framework specifically designed for multi-table learned CE systems. CEP introduces Distribution Sensitivity Pruning, which constructs semi-join deletion results and computes sensitivity scores to guide parameter pruning, and Domain Pruning, which removes support for value domains entirely eliminated by deletion. We evaluate CEP on state-of-the-art architectures NeuroCard and FACE across IMDB and TPC-H datasets. Results demonstrate CEP consistently achieves the lowest Q-error in multi-table scenarios, particularly under high deletion ratios, often outperforming full retraining. Furthermore, CEP significantly reduces convergence iterations, incurring negligible computational overhead of 0.3%-2.5% of fine-tuning time.
- Abstract(参考訳): 学習基数推定(CE)システムにおける機械学習は、マルチテーブルリレーショナルデータにおける複雑な分布依存のため、ユニークな課題を提示する。
具体的には、機械学習のコアコンポーネントであるデータ削除は、属性レベルの感度、テーブル間伝播、ドメインの消失という、学習したCEモデルにおいて3つの重要な課題に直面している。
マルチテーブル学習CEシステムに特化して設計された最初の未学習フレームワークであるCEP(Cardinality Estimation Pruning)を提案する。
CEPでは、セミジョイント削除結果を構築し、パラメータのプルーニングをガイドするために感度スコアを計算するDistributed Sensitivity Pruningと、削除によって完全に排除されたバリュードメインのサポートを取り除くDomain Pruningが導入されている。
我々は、IMDBおよびTPC-Hデータセット間で、最先端アーキテクチャのNeuroCardとFACEについてCEPを評価する。
結果は、CEPがマルチテーブルシナリオにおいて、特に高い削除率の下で、最も低いQエラーを一貫して達成し、多くの場合、フルリトレーニングよりも優れています。
さらに、CEPは収束反復を著しく減らし、微調整時間の0.3%-2.5%の計算オーバーヘッドをもたらす。
関連論文リスト
- Localized PCA-Net Neural Operators for Scalable Solution Reconstruction of Elliptic PDEs [5.788187988343425]
提案するパッチベースのPCA-Netフレームワークは,ソリューションフィールドを小さなパッチに分解し,各パッチにPCAを適用し,削減されたPCA空間でニューラル演算子を訓練する。
その結果、パッチベースのPCAは高い精度を維持しながら計算複雑性を著しく低減し、エンドツーエンドのパイプライン処理時間を3.7倍から4倍に短縮した。
論文 参考訳(メタデータ) (2025-09-09T20:13:51Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Label-independent hyperparameter-free self-supervised single-view deep subspace clustering [0.0]
ディープサブスペースクラスタリング(DSC)アルゴリズムは、ドメイン間で広く採用されるのを妨げるいくつかの課題に直面している。
本稿では,結合表現行列を用いたレイヤワイド自己表現損失を最小限に抑える一視点DSC手法を提案する。
提案手法は,顔,数字,オブジェクトを表す6つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2025-04-25T08:54:34Z) - How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
Kernel Divergence Score (KDS) は、サンプル埋め込みのカーネル類似性行列間のばらつきを計算することによって、データセット汚染を評価する新しい手法である。
KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-02T05:50:39Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Semi-Decentralized Federated Edge Learning with Data and Device
Heterogeneity [6.341508488542275]
フェデレーションエッジ学習(FEEL)は、ディープラーニングモデルをトレーニングするために、ネットワークエッジに分散データを効果的に組み込むための、プライバシ保護パラダイムとして多くの注目を集めている。
本稿では,複数のエッジサーバを用いて多数のクライアントノードを協調的に調整する,半分散型フェデレーションエッジ学習(SD-FEEL)という,FEELの新しいフレームワークについて検討する。
効率的なモデル共有のためにエッジサーバ間の低レイテンシ通信を利用することで、SD-FEELは従来のフェデレート学習に比べてはるかにレイテンシの低い訓練データを取り込みながら、より多くのトレーニングデータを組み込むことができる。
論文 参考訳(メタデータ) (2021-12-20T03:06:08Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Improved Dimensionality Reduction of various Datasets using Novel
Multiplicative Factoring Principal Component Analysis (MPCA) [0.0]
本稿では,従来のPCA手法である乗算因子分解主成分分析の改良について述べる。
従来のPCAに対するMPCAの利点は、乗算器を通して発生空間にペナルティを課すことで、射影の探索において、アウトレーヤの効果を無視できることである。
論文 参考訳(メタデータ) (2020-09-25T12:30:15Z) - Deep N-ary Error Correcting Output Codes [66.15481033522343]
Ecoror Correcting Output Codes (ECOC) のようなデータ非依存のアンサンブル手法が注目を集めている。
N-ary ECOCは、元の多クラス分類問題を、独立した単純な分類サブプロブレムのシリーズに分解する。
深部N-ary ECOCのためのパラメータ共有アーキテクチャの3つのバリエーションを提案する。
論文 参考訳(メタデータ) (2020-09-22T11:35:03Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。