論文の概要: Blockwise Principal Component Analysis for monotone missing data
imputation and dimensionality reduction
- arxiv url: http://arxiv.org/abs/2305.06042v1
- Date: Wed, 10 May 2023 10:51:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 13:40:30.041876
- Title: Blockwise Principal Component Analysis for monotone missing data
imputation and dimensionality reduction
- Title(参考訳): 単調欠落データ計算と次元減少のためのブロックワイド主成分分析
- Authors: Tu T. Do, Mai Anh Vu, Hoang Thien Ly, Thu Nguyen, Steven A. Hicks,
Michael A. Riegler, P{\aa}l Halvorsen, and Binh T. Nguyen
- Abstract要約: 本稿では,モノトーン欠落データの次元的低減と計算のためのBlockwise principal component analysis Imputation (BPI) フレームワークを提案する。
BPIは、インキュベーション後の次元還元よりも、インキュベーション時間を著しく短縮することができる。
欠落データに直接MICE計算を適用すると収束しないが、データに対してMICEにBPIを適用すると収束する可能性がある。
- 参考スコア(独自算出の注目度): 2.457959317248218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monotone missing data is a common problem in data analysis. However,
imputation combined with dimensionality reduction can be computationally
expensive, especially with the increasing size of datasets. To address this
issue, we propose a Blockwise principal component analysis Imputation (BPI)
framework for dimensionality reduction and imputation of monotone missing data.
The framework conducts Principal Component Analysis (PCA) on the observed part
of each monotone block of the data and then imputes on merging the obtained
principal components using a chosen imputation technique. BPI can work with
various imputation techniques and can significantly reduce imputation time
compared to conducting dimensionality reduction after imputation. This makes it
a practical and efficient approach for large datasets with monotone missing
data. Our experiments validate the improvement in speed. In addition, our
experiments also show that while applying MICE imputation directly on missing
data may not yield convergence, applying BPI with MICE for the data may lead to
convergence.
- Abstract(参考訳): モノトーンデータ欠落はデータ分析において一般的な問題である。
しかし、特にデータセットのサイズが大きくなると、次元削減と組み合わせた計算コストがかかる。
この問題に対処するために,ブロックワイドの主成分分析計算(BPI)フレームワークを提案する。
このフレームワークは、データの各モノトンブロックの観測部分について主成分分析(PCA)を行い、選択された計算手法を用いて得られた主成分をマージする。
BPIは様々な計算手法で動作可能であり, 計算時間を大幅に短縮することができる。
これにより、モノトン欠落データを持つ大規模なデータセットに対して、実用的で効率的なアプローチとなる。
我々の実験はスピードの向上を検証する。
さらに,本実験では,MICE の計算をデータに直接適用しても収束は得られず,BPI をデータに適用すると収束する可能性が示唆された。
関連論文リスト
- Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - MIM4DD: Mutual Information Maximization for Dataset Distillation [15.847690902246727]
合成データセットと実データセット間の共有情報を定量化する指標として相互情報(MI)を導入する。
コントラスト学習フレームワーク内で,MIを最適化可能な新しい設計により,MIM4DDを数値的に最大化する手法を考案する。
実験の結果,MIM4DDは既存のSoTA DDメソッドのアドオンモジュールとして実装可能であることがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:22:50Z) - Entropic Wasserstein Component Analysis [8.744017403796406]
次元減少(DR)の鍵となる要件は、元のサンプルと組込みサンプルの間にグローバルな依存関係を組み込むことである。
最適輸送(OT)と主成分分析(PCA)の原理を組み合わせる。
提案手法は, サンプルの近傍情報を自然に符号化するエントロピーOTを用いて, 復元誤差を最小化する最適線形部分空間を求める。
論文 参考訳(メタデータ) (2023-03-09T08:59:33Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z) - Principal Component Analysis based frameworks for efficient missing data
imputation algorithms [3.635056427544418]
そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
そこで我々は,PCAI と PIC が様々な計算アルゴリズムで動作可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T14:47:27Z) - Shared Independent Component Analysis for Multi-Subject Neuroimaging [107.29179765643042]
本稿では,ShICA (Shared Independent Component Analysis) を導入し,各ビューを加法ガウス雑音によって汚染された共有独立成分の線形変換としてモデル化する。
このモデルは、成分がガウス的でないか、あるいはノイズ分散に十分な多様性がある場合、同定可能であることを示す。
我々は,fMRIおよびMEGデータセットの実証的証拠として,ShICAが代替品よりも正確な成分推定を行うことを示す。
論文 参考訳(メタデータ) (2021-10-26T08:54:41Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Entropy Minimizing Matrix Factorization [102.26446204624885]
NMF(Nonnegative Matrix Factorization)は、広く使用されているデータ分析技術であり、多くの実際のタスクで印象的な結果をもたらしました。
本研究では,上述の問題に対処するために,EMMF (Entropy Minimizing Matrix Factorization framework) を開発した。
通常、外れ値が通常のサンプルよりもはるかに小さいことを考えると、行列分解のために新しいエントロピー損失関数が確立される。
論文 参考訳(メタデータ) (2021-03-24T21:08:43Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。