論文の概要: Efficient and Accurate In-Database Machine Learning with SQL Code
Generation in Python
- arxiv url: http://arxiv.org/abs/2104.03224v1
- Date: Wed, 7 Apr 2021 16:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:34:38.238303
- Title: Efficient and Accurate In-Database Machine Learning with SQL Code
Generation in Python
- Title(参考訳): pythonによるsqlコード生成による効率的かつ正確なデータベース内機械学習
- Authors: Michael Kaufmann, Gabriel Stechschulte, Anna Huber
- Abstract要約: Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。
提案手法は,1つのインメモリデータセットの2~3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2~3%低かった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Following an analysis of the advantages of SQL-based Machine Learning (ML)
and a short literature survey of the field, we describe a novel method for
In-Database Machine Learning (IDBML). We contribute a process for SQL-code
generation in Python using template macros in Jinja2 as well as the prototype
implementation of the process. We describe our implementation of the process to
compute multidimensional histogram (MDH) probability estimation in SQL. For
this, we contribute and implement a novel discretization method called equal
quantized rank (EQR) variable-width binning. Based on this, we provide data
gathered in a benchmarking experiment for the quantitative empirical evaluation
of our method and system using the Covertype dataset. We measured accuracy and
computation time. Our multidimensional probability estimation was significantly
more accurate than Naive Bayes, which assumes independent one-dimensional
probabilities and/or densities. Also, our method was significantly more
accurate and faster than logistic regression. However, our method was 2-3% less
accurate than the best current state-of-the-art methods we found (decision
trees and random forests) and 2-3 times slower for one in-memory dataset. Yet,
this fact motivates for further research in accuracy improvement and in IDBML
with SQL code generation for big data and larger-than-memory datasets.
- Abstract(参考訳): SQLベースの機械学習(ML)の利点の分析と、その分野の短い文献調査に続いて、本研究では、データベース内機械学習(IDBML)の新しい手法について述べる。
我々は、Jinja2のテンプレートマクロとプロセスのプロトタイプ実装を使用して、PythonのSQLコード生成プロセスにコントリビュートする。
SQLにおける多次元ヒストグラム(MDH)の確率推定を行うプロセスの実装について述べる。
そこで我々は,等量化ランク(EQR)可変幅ビンニングという新しい離散化手法を提案し,実装する。
そこで我々は,Covertypeデータセットを用いた手法とシステムの定量的評価のためのベンチマーク実験で収集したデータを提供する。
精度と計算時間を測定した。
我々の多次元確率推定は、独立な一次元確率と密度を仮定するネイブベイズよりもかなり精度が高かった。
また,本手法はロジスティック回帰よりも精度が高く,高速であった。
しかし,本手法は,現在の最先端手法 (決定木とランダム林) よりも2~3%精度が低く,1つのインメモリデータセットでは2~3倍遅かった。
しかし、この事実は、正確性の向上と、ビッグデータとより大きなメモリデータセットのためのSQLコード生成を伴うIDBMLにおけるさらなる研究の動機となっている。
関連論文リスト
- In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Optimal Data Generation in Multi-Dimensional Parameter Spaces, using
Bayesian Optimization [0.0]
本稿では,機械学習モデルを学習するための最小限の高情報データベースを構築するための新しい手法を提案する。
ガウス過程回帰(GPR)を用いた出力パラメータと入力パラメータの関係を模倣する。
GPRにより予測される標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
論文 参考訳(メタデータ) (2023-12-04T16:36:29Z) - A Semiparametric Efficient Approach To Label Shift Estimation and
Quantification [0.0]
本稿では、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。
SELSEの正規化誤差は、その家系の他のどのアルゴリズムよりも最小の分散行列を持つことを示す。
論文 参考訳(メタデータ) (2022-11-07T07:49:29Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Probabilistic Case-based Reasoning for Open-World Knowledge Graph
Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。
本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。
提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文 参考訳(メタデータ) (2020-10-07T17:48:12Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Monte Carlo simulation studies on Python using the sstudy package with
SQL databases as storage [0.0]
sstudyは、シミュレーション研究の準備を簡単にするために設計されたPythonパッケージである。
そこで本研究では,シミュレーション研究の手順を統計的に簡潔に記述し,推定対象を簡易に説明する。
論文 参考訳(メタデータ) (2020-04-27T20:49:43Z) - Monotonic Cardinality Estimation of Similarity Selection: A Deep
Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。
本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文 参考訳(メタデータ) (2020-02-15T20:22:51Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。