論文の概要: Principal Component Analysis based frameworks for efficient missing data
imputation algorithms
- arxiv url: http://arxiv.org/abs/2205.15150v3
- Date: Sun, 19 Mar 2023 18:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:17:08.357711
- Title: Principal Component Analysis based frameworks for efficient missing data
imputation algorithms
- Title(参考訳): 効率的なデータインプテーションアルゴリズムのための主成分分析に基づくフレームワーク
- Authors: Thu Nguyen, Hoang Thien Ly, Michael Alexander Riegler, P{\aa}l
Halvorsen, Hugo L. Hammer
- Abstract要約: そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
そこで我々は,PCAI と PIC が様々な計算アルゴリズムで動作可能であることを示す。
- 参考スコア(独自算出の注目度): 3.635056427544418
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Missing data is a commonly occurring problem in practice. Many imputation
methods have been developed to fill in the missing entries. However, not all of
them can scale to high-dimensional data, especially the multiple imputation
techniques. Meanwhile, the data nowadays tends toward high-dimensional.
Therefore, in this work, we propose Principal Component Analysis Imputation
(PCAI), a simple but versatile framework based on Principal Component Analysis
(PCA) to speed up the imputation process and alleviate memory issues of many
available imputation techniques, without sacrificing the imputation quality in
term of MSE. In addition, the frameworks can be used even when some or all of
the missing features are categorical, or when the number of missing features is
large. Next, we introduce PCA Imputation - Classification (PIC), an application
of PCAI for classification problems with some adjustments. We validate our
approach by experiments on various scenarios, which shows that PCAI and PIC can
work with various imputation algorithms, including the state-of-the-art ones
and improve the imputation speed significantly, while achieving competitive
mean square error/classification accuracy compared to direct imputation (i.e.,
impute directly on the missing data).
- Abstract(参考訳): データの欠落は一般的に発生する問題である。
不足するエントリを埋めるために多くの計算方法が開発されている。
しかし、これらすべてが高次元データ、特に多重計算技術にスケールできるわけではない。
一方、現在のデータは高次元の傾向にある。
そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。PCA(Principal Component Analysis)をベースとしたシンプルだが汎用的なフレームワークであるPCAI(Principal Component Analysis Imputation)を提案する。
さらに、欠落している機能の一部または全部がカテゴリ化されている場合や、欠落している機能の数が大きい場合であっても、フレームワークは使用できる。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
我々は,PCAI と PIC が,最先端の計算アルゴリズムを含む様々な計算アルゴリズムで動作し,直接計算に比べて平均二乗誤差/分類精度を向上しつつ,計算速度を大幅に向上できることを示す,様々なシナリオによるアプローチの有効性を検証した。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - An online algorithm for contrastive Principal Component Analysis [9.090031210111919]
我々は、cPCA*のオンラインアルゴリズムを導き、局所的な学習規則でニューラルネットワークにマップできることを示し、エネルギー効率の良いニューロモルフィックハードウェアで実装できる可能性がある。
実際のデータセット上でのオンラインアルゴリズムの性能を評価し、元の定式化との相違点と類似点を強調した。
論文 参考訳(メタデータ) (2022-11-14T19:48:48Z) - Imputation of missing values in multi-view data [0.24739484546803336]
多視点学習のための既存の累積ペナル化ロジスティック回帰アルゴリズムに基づく新しい計算法を提案する。
シミュレーションデータセットと実データアプリケーションにおいて,新しい計算手法の性能と既存計算アルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2022-10-26T05:19:30Z) - Domain Adaptation Principal Component Analysis: base linear method for
learning with out-of-distribution data [55.41644538483948]
ドメイン適応は現代の機械学習において一般的なパラダイムである。
ドメイン適応主成分分析(DAPCA)という手法を提案する。
DAPCAは、領域適応タスクの解決に有用な線形化データ表現を見つける。
論文 参考訳(メタデータ) (2022-08-28T21:10:56Z) - Learning to Detect Critical Nodes in Sparse Graphs via Feature Importance Awareness [53.351863569314794]
クリティカルノード問題(CNP)は、削除が残余ネットワークのペア接続性を最大に低下させるネットワークから臨界ノードの集合を見つけることを目的としている。
本研究は,ノード表現のための特徴重要度対応グラフアテンションネットワークを提案する。
ダブルディープQネットワークと組み合わせて、初めてCNPを解くエンドツーエンドのアルゴリズムを作成する。
論文 参考訳(メタデータ) (2021-12-03T14:23:05Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Computational Barriers to Estimation from Low-Degree Polynomials [81.67886161671379]
本研究では,隠れ構造物の存在を検知する作業において,低次構造物のパワーについて検討する。
大規模な「信号+雑音」問題に対して、任意の程度に達成可能な最良の平均二乗誤差に対して、ユーザフレンドリな下界を与える。
応用として,植込みサブマトリクスに対する低次平均2乗誤差の厳密な評価と高密度サブグラフ問題について述べる。
論文 参考訳(メタデータ) (2020-08-05T17:52:10Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。