論文の概要: In-Database Data Imputation
- arxiv url: http://arxiv.org/abs/2401.03359v1
- Date: Sun, 7 Jan 2024 01:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:13:23.162576
- Title: In-Database Data Imputation
- Title(参考訳): データベース内データインプテーション
- Authors: Massimo Perini, Milos Nikolic
- Abstract要約: データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
- 参考スコア(独自算出の注目度): 0.6157028677798809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data is a widespread problem in many domains, creating challenges in
data analysis and decision making. Traditional techniques for dealing with
missing data, such as excluding incomplete records or imputing simple estimates
(e.g., mean), are computationally efficient but may introduce bias and disrupt
variable relationships, leading to inaccurate analyses. Model-based imputation
techniques offer a more robust solution that preserves the variability and
relationships in the data, but they demand significantly more computation time,
limiting their applicability to small datasets.
This work enables efficient, high-quality, and scalable data imputation
within a database system using the widely used MICE method. We adapt this
method to exploit computation sharing and a ring abstraction for faster model
training. To impute both continuous and categorical values, we develop
techniques for in-database learning of stochastic linear regression and
Gaussian discriminant analysis models. Our MICE implementations in PostgreSQL
and DuckDB outperform alternative MICE implementations and model-based
imputation techniques by up to two orders of magnitude in terms of computation
time, while maintaining high imputation quality.
- Abstract(参考訳): データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全レコードの排除や単純な推定(平均値など)のような欠落データを扱う従来の手法は、計算的に効率的であるが、バイアスを導入して変動関係を乱す可能性があり、不正確な分析につながる。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、より計算時間を必要とし、小さなデータセットに適用性を制限する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
本手法は,より高速なモデル学習のための計算共有とリング抽象化に適応する。
連続値と分類値の両方を暗示するために,確率線形回帰のデータベース内学習法とガウス判別分析モデルを開発した。
PostgreSQL と DuckDB の MICE 実装は,計算時間の観点から最大2桁の精度で代替 MICE 実装やモデルベース計算技術より優れており,高い計算品質を維持している。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文 参考訳(メタデータ) (2022-10-31T08:13:26Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records [7.048393430310444]
我々はクリギングの理論に基づく数学的に原理化された計算法を導入する。
我々は最近開発された多段階最適化アプローチを,医療記録のインキュベーション問題に適用した。
数値計算の結果, マルチレベル法は現在の手法よりも著しく優れ, 数値的に頑健であることがわかった。
論文 参考訳(メタデータ) (2021-10-19T01:14:08Z) - A computational study on imputation methods for missing environmental
data [0.0]
本稿では,自然環境に関する情報を収集するデータベースに焦点を当てる。
本研究は,いくつかの欠落データ計算手法の性能と,その環境における欠落データ問題への応用について検討する。
本研究は, 環境データ不足に対処する上で, MF を抑止法として用いることの意義を実証するものであると信じている。
論文 参考訳(メタデータ) (2021-08-21T12:19:42Z) - A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。
ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。
シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文 参考訳(メタデータ) (2020-11-30T21:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。