論文の概要: Online Missing Value Imputation and Change Point Detection with the
Gaussian Copula
- arxiv url: http://arxiv.org/abs/2009.12326v2
- Date: Wed, 15 Dec 2021 20:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:32:05.262182
- Title: Online Missing Value Imputation and Change Point Detection with the
Gaussian Copula
- Title(参考訳): ガウスコプラによるオンライン欠落値計算と変化点検出
- Authors: Yuxuan Zhao, Eric Landgrebe, Eliot Shekhtman and Madeleine Udell
- Abstract要約: 実世界のデータサイエンスにとって、値計算の欠如は不可欠である。
ガウスコプラを用いた混合データに対するオンライン計算アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 21.26330349034669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing value imputation is crucial for real-world data science workflows.
Imputation is harder in the online setting, as it requires the imputation
method itself to be able to evolve over time. For practical applications,
imputation algorithms should produce imputations that match the true data
distribution, handle data of mixed types, including ordinal, boolean, and
continuous variables, and scale to large datasets. In this work we develop a
new online imputation algorithm for mixed data using the Gaussian copula. The
online Gaussian copula model meets all the desiderata: its imputations match
the data distribution even for mixed data, improve over its offline counterpart
on the accuracy when the streaming data has a changing distribution, and on the
speed (up to an order of magnitude) especially on large scale datasets. By
fitting the copula model to online data, we also provide a new method to detect
change points in the multivariate dependence structure with missing values.
Experimental results on synthetic and real world data validate the performance
of the proposed methods.
- Abstract(参考訳): バリューインプテーションの欠如は、現実世界のデータサイエンスワークフローにとって不可欠である。
計算方法自体が時間の経過とともに進化できる必要があるため、オンライン環境での計算は困難である。
実用的なアプリケーションでは、インプテーションアルゴリズムは、真のデータ分布にマッチするインプットを生成し、順序変数、ブール変数、連続変数を含む混合型のデータを処理し、大規模なデータセットにスケールする必要がある。
本研究では,gaussian copulaを用いた混合データのための新しいオンラインインプテーションアルゴリズムを開発した。
オンラインgaussian copulaモデルはすべてのデシデラタを満たしている:そのインプットは、混合データにおいてもデータ分布にマッチし、ストリーミングデータが分散している場合の精度と、特に大規模データセットでの速度(桁違いまで)によってオフラインデータよりも改善される。
オンラインデータにcopulaモデルを適合させることにより,多変量依存構造の変化点を欠落値で検出する新しい手法を提案する。
合成および実世界のデータによる実験結果により,提案手法の有効性が検証された。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Multistage Large Segment Imputation Framework Based on Deep Learning and
Statistic Metrics [8.266097781813656]
本研究では, 深層学習に基づく多段階計算フレームワークを提案する。
本モデルでは,データ分布の低次および高次統計量の混合測定指標と,データ計算性能指標の新たな視点を示す。
実験結果から, 多段階計算法と混合指標が優れていること, 不足値計算の効果がある程度改善されていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-22T14:17:24Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - MLReal: Bridging the gap between training on synthetic data and real
data applications in machine learning [1.9852463786440129]
本稿では,実際のデータ特徴を持つ合成データの教師付きトレーニングを強化するための新しいアプローチについて述べる。
トレーニング段階では、入力データは合成ドメインから、自動相関データは実ドメインからである。
推論/アプリケーション段階では、入力データは実サブセットドメインからであり、自己相関区間の平均は合成データサブセットドメインからである。
論文 参考訳(メタデータ) (2021-09-11T14:43:34Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。