論文の概要: Machine Learning Based Missing Values Imputation in Categorical Datasets
- arxiv url: http://arxiv.org/abs/2306.06338v1
- Date: Sat, 10 Jun 2023 03:29:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:33:42.051713
- Title: Machine Learning Based Missing Values Imputation in Categorical Datasets
- Title(参考訳): 機械学習によるカテゴリデータセットの欠落値計算
- Authors: Muhammad Ishaq, Laila iftikhar, Majid Khan, Asfandyar Khan, Arshad
Khan
- Abstract要約: 本研究では、分類データセットの欠落値の予測と計算に機械学習アルゴリズムを用いる方法について検討した。
これらのアルゴリズムを,CPUデータセット,甲状腺機能低下データセット,乳癌データセットの3つのデータセットに適用した。
実験の結果、機械学習アルゴリズムは、欠落した値の予測と計算において、優れたパフォーマンスを達成することができた。
- 参考スコア(独自算出の注目度): 8.843362170044225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study explored the use of machine learning algorithms for predicting and
imputing missing values in categorical datasets. We focused on ensemble models
that use the error correction output codes (ECOC) framework, including
SVM-based and KNN-based ensemble models, as well as an ensemble classifier that
combines SVM, KNN, and MLP models. We applied these algorithms to three
datasets: the CPU dataset, the hypothyroid dataset, and the Breast Cancer
dataset. Our experiments showed that the machine learning algorithms were able
to achieve good performance in predicting and imputing the missing values, with
some variations depending on the specific dataset and missing value pattern.
The ensemble models using the error correction output codes (ECOC) framework
were particularly effective in improving the accuracy and robustness of the
predictions, compared to individual models. However, there are also challenges
and limitations to using deep learning for missing value imputation, including
the need for large amounts of labeled data and the potential for overfitting.
Further research is needed to evaluate the effectiveness and efficiency of deep
learning algorithms for missing value imputation and to develop strategies for
addressing the challenges and limitations that may arise.
- Abstract(参考訳): 本研究では,分類型データセットにおける欠落値の予測と推定に機械学習アルゴリズムを用いた。
本研究では, 誤り訂正出力符号(ECOC)フレームワークを用いたアンサンブルモデルに着目し, SVM, KNN, MLPモデルを組み合わせたアンサンブル分類器について検討した。
これらのアルゴリズムを,CPUデータセット,甲状腺機能低下データセット,乳癌データセットの3つのデータセットに適用した。
実験の結果、機械学習アルゴリズムは、特定のデータセットや欠落した値パターンに応じて、欠落した値の予測とインプットにおいて、優れたパフォーマンスを実現することができた。
誤り訂正出力符号 (ECOC) を用いたアンサンブルモデルは, 個々のモデルと比較して精度と堅牢性を向上させるのに特に有効であった。
しかし、大量のラベル付きデータの必要性や過剰フィッティングの可能性など、値インプテーションの欠如に対してディープラーニングを使用する上での課題や制限もある。
さらに, 深層学習アルゴリズムの有効性と効率性を評価するとともに, 起こりうる課題や限界に対処するための戦略を開発する必要がある。
関連論文リスト
- Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。
インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。
非微分不可能な指標に適した影響スコア推定法を導出する。
論文 参考訳(メタデータ) (2025-02-02T23:20:16Z) - Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。
本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。
具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文 参考訳(メタデータ) (2024-11-27T18:59:50Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Effect of Balancing Data Using Synthetic Data on the Performance of
Machine Learning Classifiers for Intrusion Detection in Computer Networks [3.233545237942899]
アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。
このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。
また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
論文 参考訳(メタデータ) (2022-04-01T00:25:11Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Machine learning with incomplete datasets using multi-objective
optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。
命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。
NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文 参考訳(メタデータ) (2020-12-04T03:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。