論文の概要: Consistent and Flexible Selectivity Estimation for High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2005.09908v4
- Date: Thu, 27 May 2021 15:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 06:17:40.254314
- Title: Consistent and Flexible Selectivity Estimation for High-Dimensional Data
- Title(参考訳): 高次元データの一貫性とフレキシブル選択性の推定
- Authors: Yaoshu Wang, Chuan Xiao, Jianbin Qin, Rui Mao, Onizuka Makoto, Wei
Wang, Rui Zhang, Yoshiharu Ishikawa
- Abstract要約: 本稿では,クエリ依存の断片的線形関数を選択性推定器として学習する深層学習モデルを提案する。
提案手法は,最先端モデルの精度を効率よく向上することを示す。
- 参考スコア(独自算出の注目度): 23.016360687961193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selectivity estimation aims at estimating the number of database objects that
satisfy a selection criterion. Answering this problem accurately and
efficiently is essential to many applications, such as density estimation,
outlier detection, query optimization, and data integration. The estimation
problem is especially challenging for large-scale high-dimensional data due to
the curse of dimensionality, the large variance of selectivity across different
queries, and the need to make the estimator consistent (i.e., the selectivity
is non-decreasing in the threshold). We propose a new deep learning-based model
that learns a query-dependent piecewise linear function as selectivity
estimator, which is flexible to fit the selectivity curve of any distance
function and query object, while guaranteeing that the output is non-decreasing
in the threshold. To improve the accuracy for large datasets, we propose to
partition the dataset into multiple disjoint subsets and build a local model on
each of them. We perform experiments on real datasets and show that the
proposed model consistently outperforms state-of-the-art models in accuracy in
an efficient way and is useful for real applications.
- Abstract(参考訳): 選択度推定は、選択基準を満たすデータベースオブジェクトの数を推定することを目的としている。
この問題に正確かつ効率的に答えることは、密度推定、異常検出、クエリ最適化、データ統合など、多くのアプリケーションにとって不可欠である。
推定問題は、次元の呪い、異なるクエリ間の選択性の大きなばらつき、そして推定器を一貫性を持たせる必要性(すなわち、選択性はしきい値で非減少する)により、大規模な高次元データにとって特に困難である。
本稿では,任意の距離関数とクエリオブジェクトの選択曲線に適合し,出力がしきい値の非減少を保証しながら,クエリ依存の断片的線形関数を選択性推定器として学習する新しいディープラーニングモデルを提案する。
大規模データセットの精度を向上させるため、データセットを複数の非結合サブセットに分割し、それぞれにローカルモデルを構築することを提案する。
実データを用いて実験を行い,提案モデルが精度よく最先端のモデルより一貫して優れており,実際のアプリケーションに有用であることを示す。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Approximate Bayesian Optimisation for Neural Networks [6.921210544516486]
モデル選択の重要性を強調するために、機械学習アルゴリズムを自動化するための一連の作業が行われた。
理想主義的な方法で解析的トラクタビリティと計算可能性を解決する必要性は、効率と適用性を確保することを可能にしている。
論文 参考訳(メタデータ) (2021-08-27T19:03:32Z) - Machine learning with incomplete datasets using multi-objective
optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。
命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。
NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文 参考訳(メタデータ) (2020-12-04T03:44:33Z) - Joint Adaptive Graph and Structured Sparsity Regularization for
Unsupervised Feature Selection [6.41804410246642]
本稿では,共同適応グラフと構造付き空間正規化unsupervised feature selection (JASFS)法を提案する。
最適な機能のサブセットがグループで選択され、選択された機能の数が自動的に決定される。
8つのベンチマーク実験の結果,提案手法の有効性と有効性を示した。
論文 参考訳(メタデータ) (2020-10-09T08:17:04Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。