論文の概要: Missing Data Imputation for Classification Problems
- arxiv url: http://arxiv.org/abs/2002.10709v1
- Date: Tue, 25 Feb 2020 07:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:11:22.768829
- Title: Missing Data Imputation for Classification Problems
- Title(参考訳): 分類問題に対する欠落データ計算
- Authors: Arkopal Choudhury and Michael R. Kosorok
- Abstract要約: 特徴学習行列が欠落している様々な分類問題において、欠落データの計算は一般的な応用である。
本稿では,クラス重み付きグレー距離に基づく新しい反復的kNN計算手法を提案する。
これにより、トレーニングデータの計算が分類性能の向上に向けられていることが保証される。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imputation of missing data is a common application in various classification
problems where the feature training matrix has missingness. A widely used
solution to this imputation problem is based on the lazy learning technique,
$k$-nearest neighbor (kNN) approach. However, most of the previous work on
missing data does not take into account the presence of the class label in the
classification problem. Also, existing kNN imputation methods use variants of
Minkowski distance as a measure of distance, which does not work well with
heterogeneous data. In this paper, we propose a novel iterative kNN imputation
technique based on class weighted grey distance between the missing datum and
all the training data. Grey distance works well in heterogeneous data with
missing instances. The distance is weighted by Mutual Information (MI) which is
a measure of feature relevance between the features and the class label. This
ensures that the imputation of the training data is directed towards improving
classification performance. This class weighted grey kNN imputation algorithm
demonstrates improved performance when compared to other kNN imputation
algorithms, as well as standard imputation algorithms such as MICE and
missForest, in imputation and classification problems. These problems are based
on simulated scenarios and UCI datasets with various rates of missingness.
- Abstract(参考訳): 欠落データのインプテーションは、特徴訓練行列が欠如している様々な分類問題における一般的な応用である。
この計算問題に対する広く使われている解決策は、遅延学習技術である$k$-nearest neighbor (kNN)アプローチに基づいている。
しかし、データ欠落に関する以前の研究のほとんどは、分類問題におけるクラスラベルの存在を考慮していない。
また、既存のknインプテーション法では距離の尺度としてミンコフスキー距離の変種を用いるが、異種データではうまく動作しない。
本稿では,欠落したダムと訓練データ間のクラス重み付きグレー距離に基づく,新しい反復的kNN計算手法を提案する。
grey distanceは、欠落したインスタンスを持つ異種データでうまく機能する。
距離は、特徴とクラスラベルの間の特徴的関連性の尺度である相互情報(mi)によって重み付けされる。
これにより、トレーニングデータの計算が分類性能の向上に向けられていることが保証される。
このクラス重み付きグレーkNN計算アルゴリズムは、他のkNN計算アルゴリズムやMICEやMissForestのような標準的な計算アルゴリズムと比較して、計算と分類の問題における性能の向上を示す。
これらの問題は、様々な欠落率のシミュレーションシナリオとUCIデータセットに基づいている。
関連論文リスト
- On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Continual learning for surface defect segmentation by subnetwork
creation and selection [55.2480439325792]
破滅的な忘れを伴わずにセグメンテーションタスクを実行する,新たな連続的(あるいは寿命の長い)学習アルゴリズムを導入する。
この方法は、2つの異なる表面欠陥分割問題に適用され、漸進的に学習される。
当社のアプローチでは,すべてのトレーニングデータ(すべての欠陥)を同時に見る場合,共同トレーニングと同等の結果が得られます。
論文 参考訳(メタデータ) (2023-12-08T15:28:50Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Principal Component Analysis based frameworks for efficient missing data
imputation algorithms [3.635056427544418]
そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
そこで我々は,PCAI と PIC が様々な計算アルゴリズムで動作可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T14:47:27Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - KNN Classification with One-step Computation [10.381276986079865]
KNN分類の遅延部分を置き換える一段階計算を提案する。
提案手法を実験的に評価し,一段階のKNN分類が効率的かつ有望であることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:34:42Z) - Robustness to Missing Features using Hierarchical Clustering with Split
Neural Networks [39.29536042476913]
階層的クラスタリングを用いて類似の入力特徴をクラスタリングする,単純かつ効果的な手法を提案する。
本手法を一連のベンチマークデータセット上で評価し,単純な計算手法を用いても有望な改善を示す。
論文 参考訳(メタデータ) (2020-11-19T00:35:08Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。