Fugu-MT 論文翻訳(概要): Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python

論文の概要: Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python

arxiv url: http://arxiv.org/abs/2104.03224v1
Date: Wed, 7 Apr 2021 16:23:19 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-08 12:34:38.238303
Title: Efficient and Accurate In-Database Machine Learning with SQL Code Generation in Python
Title（参考訳）: pythonによるsqlコード生成による効率的かつ正確なデータベース内機械学習
Authors: Michael Kaufmann, Gabriel Stechschulte, Anna Huber
Abstract要約: Jinja2のテンプレートマクロを用いたPythonのデータベース内機械学習(IDBML)の新しい手法について説明します。提案手法は,1つのインメモリデータセットの2～3倍の精度で,現在の最先端手法(決定木とランダム林)よりも2～3%低かった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Following an analysis of the advantages of SQL-based Machine Learning (ML) and a short literature survey of the field, we describe a novel method for In-Database Machine Learning (IDBML). We contribute a process for SQL-code generation in Python using template macros in Jinja2 as well as the prototype implementation of the process. We describe our implementation of the process to compute multidimensional histogram (MDH) probability estimation in SQL. For this, we contribute and implement a novel discretization method called equal quantized rank (EQR) variable-width binning. Based on this, we provide data gathered in a benchmarking experiment for the quantitative empirical evaluation of our method and system using the Covertype dataset. We measured accuracy and computation time. Our multidimensional probability estimation was significantly more accurate than Naive Bayes, which assumes independent one-dimensional probabilities and/or densities. Also, our method was significantly more accurate and faster than logistic regression. However, our method was 2-3% less accurate than the best current state-of-the-art methods we found (decision trees and random forests) and 2-3 times slower for one in-memory dataset. Yet, this fact motivates for further research in accuracy improvement and in IDBML with SQL code generation for big data and larger-than-memory datasets.
Abstract（参考訳）: SQLベースの機械学習(ML)の利点の分析と、その分野の短い文献調査に続いて、本研究では、データベース内機械学習(IDBML)の新しい手法について述べる。我々は、Jinja2のテンプレートマクロとプロセスのプロトタイプ実装を使用して、PythonのSQLコード生成プロセスにコントリビュートする。 SQLにおける多次元ヒストグラム(MDH)の確率推定を行うプロセスの実装について述べる。そこで我々は,等量化ランク(EQR)可変幅ビンニングという新しい離散化手法を提案し,実装する。そこで我々は,Covertypeデータセットを用いた手法とシステムの定量的評価のためのベンチマーク実験で収集したデータを提供する。精度と計算時間を測定した。我々の多次元確率推定は、独立な一次元確率と密度を仮定するネイブベイズよりもかなり精度が高かった。また,本手法はロジスティック回帰よりも精度が高く,高速であった。しかし,本手法は,現在の最先端手法 (決定木とランダム林) よりも2～3%精度が低く,1つのインメモリデータセットでは2～3倍遅かった。しかし、この事実は、正確性の向上と、ビッグデータとより大きなメモリデータセットのためのSQLコード生成を伴うIDBMLにおけるさらなる研究の動機となっている。

関連論文リスト

FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文参考訳（メタデータ） (2025-05-23T14:37:00Z)
In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文参考訳（メタデータ） (2024-01-07T01:57:41Z)
Optimal Data Generation in Multi-Dimensional Parameter Spaces, using Bayesian Optimization [0.0]
本稿では,機械学習モデルを学習するための最小限の高情報データベースを構築するための新しい手法を提案する。ガウス過程回帰(GPR)を用いた出力パラメータと入力パラメータの関係を模倣する。 GPRにより予測される標準偏差を考慮し,ベイジアン最適化を用いてデータ点を選択し,MLモデルの学習に有効なデータベースを得る。
論文参考訳（メタデータ） (2023-12-04T16:36:29Z)
A Semiparametric Efficient Approach To Label Shift Estimation and Quantification [0.0]
本稿では、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。 SELSEの正規化誤差は、その家系の他のどのアルゴリズムよりも最小の分散行列を持つことを示す。
論文参考訳（メタデータ） (2022-11-07T07:49:29Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-09T08:47:58Z)
Probabilistic Case-based Reasoning for Open-World Knowledge Graph Completion [59.549664231655726]
ケースベース推論(CBR)システムは,与えられた問題に類似した事例を検索することで,新たな問題を解決する。本稿では,知識ベース(KB)の推論において,そのようなシステムが実現可能であることを示す。提案手法は,KB内の類似エンティティからの推論パスを収集することにより,エンティティの属性を予測する。
論文参考訳（メタデータ） (2020-10-07T17:48:12Z)
Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文参考訳（メタデータ） (2020-06-16T18:43:31Z)
Monte Carlo simulation studies on Python using the sstudy package with SQL databases as storage [0.0]
sstudyは、シミュレーション研究の準備を簡単にするために設計されたPythonパッケージである。そこで本研究では,シミュレーション研究の手順を統計的に簡潔に記述し,推定対象を簡易に説明する。
論文参考訳（メタデータ） (2020-04-27T20:49:43Z)
Monotonic Cardinality Estimation of Similarity Selection: A Deep Learning Approach [22.958342743597044]
類似度選択の基数推定にディープラーニングを活用する可能性について検討する。本稿では,任意のデータ型や距離関数に適用可能な,新規で汎用的な手法を提案する。
論文参考訳（メタデータ） (2020-02-15T20:22:51Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。