論文の概要: Learning to be a Statistician: Learned Estimator for Number of Distinct
Values
- arxiv url: http://arxiv.org/abs/2202.02800v1
- Date: Sun, 6 Feb 2022 15:42:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 18:21:02.055865
- Title: Learning to be a Statistician: Learned Estimator for Number of Distinct
Values
- Title(参考訳): 統計学者になるための学習: 個別値の数を学習した推定器
- Authors: Renzhi Wu, Bolin Ding, Xu Chu, Zhewei Wei, Xiening Dai, Tao Guan,
Jingren Zhou
- Abstract要約: 列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
- 参考スコア(独自算出の注目度): 54.629042119819744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the number of distinct values (NDV) in a column is useful for many
tasks in database systems, such as columnstore compression and data profiling.
In this work, we focus on how to derive accurate NDV estimations from random
(online/offline) samples. Such efficient estimation is critical for tasks where
it is prohibitive to scan the data even once. Existing sample-based estimators
typically rely on heuristics or assumptions and do not have robust performance
across different datasets as the assumptions on data can easily break. On the
other hand, deriving an estimator from a principled formulation such as maximum
likelihood estimation is very challenging due to the complex structure of the
formulation. We propose to formulate the NDV estimation task in a supervised
learning framework, and aim to learn a model as the estimator. To this end, we
need to answer several questions: i) how to make the learned model workload
agnostic; ii) how to obtain training data; iii) how to perform model training.
We derive conditions of the learning framework under which the learned model is
workload agnostic, in the sense that the model/estimator can be trained with
synthetically generated training data, and then deployed into any data
warehouse simply as, e.g., user-defined functions (UDFs), to offer efficient
(within microseconds on CPU) and accurate NDV estimations for unseen tables and
workloads. We compare the learned estimator with the state-of-the-art
sample-based estimators on nine real-world datasets to demonstrate its superior
estimation accuracy. We publish our code for training data generation, model
training, and the learned estimator online for reproducibility.
- Abstract(参考訳): 列内の異なる値の数(NDV)を推定することは、列ストア圧縮やデータプロファイリングといったデータベースシステムにおける多くのタスクに有用である。
本研究では,ランダム(オンライン/オフライン)サンプルから正確なndv推定を導出する方法に注目した。
このような効率的な推定は、データを一度でもスキャンすることが禁じられるタスクにとって重要である。
既存のサンプルベースの推定値は、通常ヒューリスティックや仮定に依存しており、データに対する仮定が容易に破られるため、異なるデータセット間での堅牢なパフォーマンスを持っていない。
一方,最大確率推定などの原理的定式化から推定器を導出することは,定式化の複雑な構造のために非常に困難である。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
この目的のためには、いくつかの質問に答える必要があります。
一 学習したモデルワークロードを非依存にする方法
二 訓練データを取得する方法
三 模型訓練の実施方法
学習したモデルがワークロード非依存である学習フレームワークの条件を,モデル/推定器が合成生成したトレーニングデータを使ってトレーニングできるという意味で導出し,任意のデータウェアハウスに,例えばユーザ定義関数(udfs)としてデプロイすることで,効率的な(cpu上のマイクロ秒を要しない)処理と,見当たらないテーブルやワークロードの正確なndv推定を提供する。
実世界の9つのデータセット上の最先端のサンプルベース推定器と学習した推定器を比較し,その優れた推定精度を示す。
データ生成のトレーニング、モデルトレーニング、再現性のために学習した推定器をオンラインで公開します。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - A Framework for Efficient Model Evaluation through Stratification, Sampling, and Estimation [17.351089059392674]
本稿では,階層化,サンプリング,推定を含むモデル評価のためのフレームワークを提案する。
モデル性能の正確な予測に基づいて,k平均クラスタリングによる成層化を行うことで,効率的に推定できることを示す。
また、データセットのラベル付けされていない部分におけるモデル精度の予測を利用するモデル支援推定器は、一般的に従来の推定値よりも効率的であることがわかった。
論文 参考訳(メタデータ) (2024-06-11T14:49:04Z) - Is Data Valuation Learnable and Interpretable? [3.9325957466009203]
現在のデータ評価手法は、出力値の解釈可能性を無視している。
この研究は、データバリュエーションは学習可能か、解釈可能か、という重要な疑問に答えることを目的としている。
論文 参考訳(メタデータ) (2024-06-03T08:13:47Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - How to Train an Accurate and Efficient Object Detection Model on Any
Dataset [0.0]
オブジェクト検出訓練のためのデータセットに依存しないテンプレートを提案する。
慎重に選択され、事前訓練されたモデルと、さらなるトレーニングのための堅牢なトレーニングパイプラインで構成される。
私たちのソリューションは最初から動作し、幅広いデータセットに対して強力なベースラインを提供します。
論文 参考訳(メタデータ) (2022-11-30T17:09:01Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Neural Approximate Sufficient Statistics for Implicit Models [34.44047460667847]
我々は、深層ニューラルネットワークの助けを借りて、データの表現を最大化する相互情報の学習として、十分な統計情報を構築するタスクの枠組みを定めている。
従来のベイズ近似計算と最近のニューラル・サイエンス法の両方にアプローチを適用し,様々なタスクにおける性能を向上する。
論文 参考訳(メタデータ) (2020-10-20T07:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。