論文の概要: Numerical Data Imputation for Multimodal Data Sets: A Probabilistic
Nearest-Neighbor Kernel Density Approach
- arxiv url: http://arxiv.org/abs/2306.16906v2
- Date: Mon, 10 Jul 2023 05:35:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 17:56:34.646965
- Title: Numerical Data Imputation for Multimodal Data Sets: A Probabilistic
Nearest-Neighbor Kernel Density Approach
- Title(参考訳): マルチモーダルデータセットに対する数値データインプテーション:確率的最接近核密度アプローチ
- Authors: Florian Lalande and Kenji Doya
- Abstract要約: 近辺推定(k$NN)と密度推定をガウスカーネル(KDE)で組み合わせたデータ計算手法を提案する。
提案手法は, 複雑なデータ構造に対処し, より低いデータ計算誤差を発生し, 確率的推定を現在の手法よりも高い確率で行うことができることを示す。
- 参考スコア(独自算出の注目度): 2.750124853532831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerical data imputation algorithms replace missing values by estimates to
leverage incomplete data sets. Current imputation methods seek to minimize the
error between the unobserved ground truth and the imputed values. But this
strategy can create artifacts leading to poor imputation in the presence of
multimodal or complex distributions. To tackle this problem, we introduce the
$k$NN$\times$KDE algorithm: a data imputation method combining nearest neighbor
estimation ($k$NN) and density estimation with Gaussian kernels (KDE). We
compare our method with previous data imputation methods using artificial and
real-world data with different data missing scenarios and various data missing
rates, and show that our method can cope with complex original data structure,
yields lower data imputation errors, and provides probabilistic estimates with
higher likelihood than current methods. We release the code in open-source for
the community: https://github.com/DeltaFloflo/knnxkde
- Abstract(参考訳): 数値データインプテーションアルゴリズムは、欠落した値を推定で置き換え、不完全なデータセットを活用する。
現在の計算法は、観測されていない基底真理と暗示値との誤差を最小化する。
しかし、この戦略はマルチモーダル分布や複雑な分布の存在下では、悪影響をもたらすアーティファクトを生み出す可能性がある。
この問題に対処するために、近辺推定(k$NN)と密度推定(KDE)を組み合わせたデータ計算法である$k$NN$\times$KDEアルゴリズムを導入する。
異なるデータ欠落シナリオと様々なデータ欠落率を有する人工的および実世界のデータを用いた従来のデータインプテーション手法と比較し,本手法が複雑なオリジナルデータ構造に対応し,データインプテーション誤差を低減し,確率的推定を現在の手法よりも高い確率で提供することを示す。
コードはオープンソースでコミュニティ向けにリリースします。 https://github.com/deltafloflo/knnxkde
関連論文リスト
- Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - A Robust and Flexible EM Algorithm for Mixtures of Elliptical
Distributions with Missing Data [71.9573352891936]
本稿では、ノイズや非ガウス的なデータに対するデータ計算の欠如に対処する。
楕円分布と潜在的な欠落データを扱う特性を混合した新しいEMアルゴリズムについて検討した。
合成データの実験的結果は,提案アルゴリズムが外れ値に対して頑健であり,非ガウスデータで使用可能であることを示す。
論文 参考訳(メタデータ) (2022-01-28T10:01:37Z) - Multilevel Stochastic Optimization for Imputation in Massive Medical
Data Records [7.048393430310444]
我々はクリギングの理論に基づく数学的に原理化された計算法を導入する。
我々は最近開発された多段階最適化アプローチを,医療記録のインキュベーション問題に適用した。
数値計算の結果, マルチレベル法は現在の手法よりも著しく優れ, 数値的に頑健であることがわかった。
論文 参考訳(メタデータ) (2021-10-19T01:14:08Z) - DPER: Efficient Parameter Estimation for Randomly Missing Data [0.24466725954625884]
本稿では,1クラス・複数クラスのランダムに欠落したデータセットに対して,最大推定値(MLE)を求めるアルゴリズムを提案する。
我々のアルゴリズムは、データを通して複数のイテレーションを必要としないので、他の方法よりも時間のかかることを約束します。
論文 参考訳(メタデータ) (2021-06-06T16:37:48Z) - List-Decodable Mean Estimation in Nearly-PCA Time [50.79691056481693]
高次元におけるリストデコタブル平均推定の基本的な課題について検討する。
我々のアルゴリズムは、すべての$k = O(sqrtd) cup Omega(d)$に対して$widetildeO(ndk)$で実行されます。
我々のアルゴリズムの変種は、すべての$k$に対してランタイム$widetildeO(ndk)$を持ち、リカバリ保証の$O(sqrtlog k)$ Factorを犠牲にしている。
論文 参考訳(メタデータ) (2020-11-19T17:21:37Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Online Missing Value Imputation and Change Point Detection with the
Gaussian Copula [21.26330349034669]
実世界のデータサイエンスにとって、値計算の欠如は不可欠である。
ガウスコプラを用いた混合データに対するオンライン計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-25T16:27:47Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。