論文の概要: Principle Components Analysis based frameworks for efficient missing
data imputation algorithms
- arxiv url: http://arxiv.org/abs/2205.15150v1
- Date: Mon, 30 May 2022 14:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 19:51:06.802964
- Title: Principle Components Analysis based frameworks for efficient missing
data imputation algorithms
- Title(参考訳): 効率的なデータインプテーションアルゴリズムのための原理成分分析に基づくフレームワーク
- Authors: Thu Nguyen, Hoang Thien Ly, Michael Alexander Riegler, P{\aa}l
Halvorsen
- Abstract要約: 利用可能な多くの計算手法の計算処理を高速化するために,PCAI(Principle Component Analysis Imputation)を提案する。
次に、欠落したデータ分類問題に対処するため、PCAインプット分類(PIC)を提案する。
実験の結果,提案するフレームワークは様々な計算アルゴリズムで利用でき,計算速度を大幅に向上できることがわかった。
- 参考スコア(独自算出の注目度): 3.899855581265356
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Missing data is a commonly occurring problem in practice, and imputation,
i.e., filling the missing entries of the data, is a popular way to deal with
this problem. This motivates multiple works on imputation to deal with missing
data of various types and dimensions. However, for high-dimensional datasets,
these imputation methods can be computationally expensive. Therefore, in this
work, we propose Principle Component Analysis Imputation (PCAI), a simple
framework based on Principle Component Analysis (PCA) to speed up the
imputation process of many available imputation techniques. Next, based on
PCAI, we propose PCA Imputation - Classification (PIC), an imputation-dimension
reduction-classification framework to deal with missing data classification
problems where it is desirable to reduce the dimensions before training a
classification model. Our experiments show that the proposed frameworks can be
utilized with various imputation algorithms and improve the imputation speed
significantly. Interestingly, the frameworks aid imputation methods that rely
on many parameters by reducing the dimension of the data and hence, reducing
the number of parameters needed to be estimated. Moreover, they not only can
achieve compatible mean square error/higher classification accuracy compared to
the traditional imputation style on the original missing dataset but many times
deliver even better results. In addition, the frameworks also help to tackle
the memory issue that many imputation approaches have by reducing the number of
features.
- Abstract(参考訳): データの欠落は一般的に発生する問題であり、データの欠落、すなわち欠落したエントリを埋めることがこの問題に対処するための一般的な方法である。
これにより、様々な型や次元の欠落データを扱うためのインプテーションに関する複数の作業が動機付けられる。
しかし、高次元データセットの場合、これらのインプテーション手法は計算コストが高い。
そこで本研究では,原理成分分析(pca)に基づく簡易フレームワークであるprincipal component analysis imputation (pcai)を提案する。
次に,pcai(pca imputation - classification)を基礎として,データ分類問題に対処するためのインプテーション・ディメンション削減分類フレームワークであるpca imputation - classification (pic)を提案する。
実験の結果,提案フレームワークは様々な計算アルゴリズムで利用でき,計算速度を大幅に向上できることがわかった。
興味深いことに、このフレームワークはデータ次元を減らすことで多くのパラメータに依存するインプテーションメソッドをサポートし、従って推定に必要なパラメータの数を減少させる。
さらに、元の欠落したデータセットの従来の計算スタイルと比較して平均二乗誤差/高い分類精度を達成できるだけでなく、多くの場合、より良い結果が得られる。
さらに、フレームワークは、多くのインプテーションアプローチが持つメモリ問題に対処するのにも役立ちます。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - An online algorithm for contrastive Principal Component Analysis [9.090031210111919]
我々は、cPCA*のオンラインアルゴリズムを導き、局所的な学習規則でニューラルネットワークにマップできることを示し、エネルギー効率の良いニューロモルフィックハードウェアで実装できる可能性がある。
実際のデータセット上でのオンラインアルゴリズムの性能を評価し、元の定式化との相違点と類似点を強調した。
論文 参考訳(メタデータ) (2022-11-14T19:48:48Z) - Imputation of missing values in multi-view data [0.24739484546803336]
多視点学習のための既存の累積ペナル化ロジスティック回帰アルゴリズムに基づく新しい計算法を提案する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2022-10-26T05:19:30Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - Learning to Detect Critical Nodes in Sparse Graphs via Feature Importance Awareness [53.351863569314794]
クリティカルノード問題(CNP)は、削除が残余ネットワークのペア接続性を最大に低下させるネットワークから臨界ノードの集合を見つけることを目的としている。
本研究は,ノード表現のための特徴重要度対応グラフアテンションネットワークを提案する。
ダブルディープQネットワークと組み合わせて、初めてCNPを解くエンドツーエンドのアルゴリズムを作成する。
論文 参考訳(メタデータ) (2021-12-03T14:23:05Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Computational Barriers to Estimation from Low-Degree Polynomials [81.67886161671379]
本研究では,隠れ構造物の存在を検知する作業において,低次構造物のパワーについて検討する。
大規模な「信号+雑音」問題に対して、任意の程度に達成可能な最良の平均二乗誤差に対して、ユーザフレンドリな下界を与える。
応用として,植込みサブマトリクスに対する低次平均2乗誤差の厳密な評価と高密度サブグラフ問題について述べる。
論文 参考訳(メタデータ) (2020-08-05T17:52:10Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。