Fugu-MT 論文翻訳(概要): In-Database Data Imputation

論文の概要: In-Database Data Imputation

arxiv url: http://arxiv.org/abs/2401.03359v1
Date: Sun, 7 Jan 2024 01:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 19:13:23.162576
Title: In-Database Data Imputation
Title（参考訳）: データベース内データインプテーション
Authors: Massimo Perini, Milos Nikolic
Abstract要約: データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
参考スコア（独自算出の注目度）: 0.6157028677798809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Missing data is a widespread problem in many domains, creating challenges in data analysis and decision making. Traditional techniques for dealing with missing data, such as excluding incomplete records or imputing simple estimates (e.g., mean), are computationally efficient but may introduce bias and disrupt variable relationships, leading to inaccurate analyses. Model-based imputation techniques offer a more robust solution that preserves the variability and relationships in the data, but they demand significantly more computation time, limiting their applicability to small datasets. This work enables efficient, high-quality, and scalable data imputation within a database system using the widely used MICE method. We adapt this method to exploit computation sharing and a ring abstraction for faster model training. To impute both continuous and categorical values, we develop techniques for in-database learning of stochastic linear regression and Gaussian discriminant analysis models. Our MICE implementations in PostgreSQL and DuckDB outperform alternative MICE implementations and model-based imputation techniques by up to two orders of magnitude in terms of computation time, while maintaining high imputation quality.
Abstract（参考訳）: データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。不完全レコードの排除や単純な推定(平均値など)のような欠落データを扱う従来の手法は、計算的に効率的であるが、バイアスを導入して変動関係を乱す可能性があり、不正確な分析につながる。モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、より計算時間を必要とし、小さなデータセットに適用性を制限する。この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。本手法は,より高速なモデル学習のための計算共有とリング抽象化に適応する。連続値と分類値の両方を暗示するために,確率線形回帰のデータベース内学習法とガウス判別分析モデルを開発した。 PostgreSQL と DuckDB の MICE 実装は,計算時間の観点から最大2桁の精度で代替 MICE 実装やモデルベース計算技術より優れており,高い計算品質を維持している。

関連論文リスト

Meta-Imputation Balanced (MIB): An Ensemble Approach for Handling Missing Data in Biomedical Machine Learning [0.41292255339309664]
本稿では,複数のベースインプタの出力を組み合わさって,不足値をより正確に予測するメタインプット手法を提案する。私たちの研究は、計算処理におけるアンサンブル学習の可能性を強調し、より堅牢でモジュール化され、解釈可能な前処理パイプラインの道を開く。
論文参考訳（メタデータ） (2025-09-03T13:49:54Z)
Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。 2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。 Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文参考訳（メタデータ） (2025-08-20T11:59:32Z)
DIM-SUM: Dynamic IMputation for Smart Utility Management [4.494470981739729]
DIM-SUMは、頑健な計算モデルをトレーニングするための前処理フレームワークである。 DIM-SUMは、人工的にマスクされたトレーニングデータと本当の欠落パターンのギャップを埋める。 DIM-SUMは、処理時間が少なく、トレーニングデータも大幅に少ないため、従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-24T21:38:06Z)
Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。 UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文参考訳（メタデータ） (2025-01-20T21:10:22Z)
A Scalable Approach to Covariate and Concept Drift Management via Adaptive Data Segmentation [0.562479170374811]
多くの現実世界のアプリケーションでは、継続的機械学習(ML)システムは不可欠だが、データドリフトが困難である。伝統的なドリフト適応法は典型的にはアンサンブル技術を用いてモデルを更新し、しばしばドリフトされた歴史データを破棄する。ドリフトしたデータをモデルトレーニングプロセスに明示的に組み込むことは、モデルの精度と堅牢性を大幅に向上させる、と我々は主張する。
論文参考訳（メタデータ） (2024-11-23T17:35:23Z)
Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。 ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。 ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文参考訳（メタデータ） (2024-10-15T17:47:44Z)
Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文参考訳（メタデータ） (2024-01-29T03:42:37Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文参考訳（メタデータ） (2023-12-03T05:52:30Z)
Stabilizing Subject Transfer in EEG Classification with Divergence Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文参考訳（メタデータ） (2023-10-12T23:06:52Z)
Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文参考訳（メタデータ） (2022-10-31T08:13:26Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
Multilevel Stochastic Optimization for Imputation in Massive Medical Data Records [6.711824170437793]
我々は最近開発された多段階計算最適化手法を医療記録の計算問題に適用した。その結果, マルチレベル手法は現在の手法よりも大幅に優れ, 数値的に堅牢であることがわかった。
論文参考訳（メタデータ） (2021-10-19T01:14:08Z)
A Hypergradient Approach to Robust Regression without Correspondence [85.49775273716503]
本稿では,入力データと出力データとの対応が不十分な回帰問題について考察する。ほとんどの既存手法はサンプルサイズが小さい場合にのみ適用できる。シャッフル回帰問題に対する新しい計算フレームワークであるROBOTを提案する。
論文参考訳（メタデータ） (2020-11-30T21:47:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。