Fugu-MT 論文翻訳(概要): Machine Learning Based Missing Values Imputation in Categorical Datasets

論文の概要: Machine Learning Based Missing Values Imputation in Categorical Datasets

arxiv url: http://arxiv.org/abs/2306.06338v3
Date: Thu, 12 Sep 2024 04:54:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-13 22:36:48.284354
Title: Machine Learning Based Missing Values Imputation in Categorical Datasets
Title（参考訳）: 機械学習によるカテゴリデータセットの欠落値計算
Authors: Muhammad Ishaq, Sana Zahir, Laila Iftikhar, Mohammad Farhad Bulbul, Seungmin Rho, Mi Young Lee,
Abstract要約: この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。 Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
参考スコア（独自算出の注目度）: 2.5611256859404983
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In order to predict and fill in the gaps in categorical datasets, this research looked into the use of machine learning algorithms. The emphasis was on ensemble models constructed using the Error Correction Output Codes framework, including models based on SVM and KNN as well as a hybrid classifier that combines models based on SVM, KNN,and MLP. Three diverse datasets, the CPU, Hypothyroid, and Breast Cancer datasets were employed to validate these algorithms. Results indicated that these machine learning techniques provided substantial performance in predicting and completing missing data, with the effectiveness varying based on the specific dataset and missing data pattern. Compared to solo models, ensemble models that made use of the ECOC framework significantly improved prediction accuracy and robustness. Deep learning for missing data imputation has obstacles despite these encouraging results, including the requirement for large amounts of labeled data and the possibility of overfitting. Subsequent research endeavors ought to evaluate the feasibility and efficacy of deep learning algorithms in the context of the imputation of missing data.
Abstract（参考訳）: 分類データセットのギャップを予測し、埋めるために、この研究は機械学習アルゴリズムの使用について検討した。 SVMやKNNをベースとしたモデルや、SVM、KNN、MLPをベースとしたモデルを組み合わせたハイブリッド分類器など、Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。これらのアルゴリズムを検証するために、CPU、甲状腺、乳癌の3つの多様なデータセットが採用された。その結果、これらの機械学習技術は、特定のデータセットと欠落したデータパターンに基づいて、欠落したデータを予測し、完了させる上で、かなりの性能を示した。ソロモデルと比較すると、ECOCフレームワークを使用したアンサンブルモデルは予測精度とロバスト性を大幅に改善した。大量のラベル付きデータの要求や過度に適合する可能性など、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。その後の研究は、欠落したデータの計算の文脈において、ディープラーニングアルゴリズムの有効性と有効性を評価するべきである。

関連論文リスト

Model State Arithmetic for Machine Unlearning [43.773053236733425]
我々は,データポイントの影響を推定し,解消するための新しいアルゴリズムであるMSAを提案する。実験の結果、MSAは既存の機械学習アルゴリズムよりずっと優れています。
論文参考訳（メタデータ） (2025-06-26T02:16:16Z)
Comprehensive Benchmarking of Machine Learning Methods for Risk Prediction Modelling from Large-Scale Survival Data: A UK Biobank Study [0.0]
大規模コホート研究と機械学習(ML)アルゴリズムの多種多様なツールキットにより、このような生存課題の取り組みが促進されている。我々は,線形学習モデルからディープラーニング(DL)モデルまで,8つのサバイバルタスク実装のベンチマークを試みた。 n = 5,000からn = 250,000のサンプルサイズで、異なるアーキテクチャがいかにうまくスケールするかを評価した。
論文参考訳（メタデータ） (2025-03-11T20:27:20Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search [59.75749613951193]
木探索とデータ選択の両方をガイドするデータインフルエンス指向木探索(DITS)を提案する。インフルエンススコアを活用することで、システム改善のための最も影響力のあるデータを効果的に特定する。非微分不可能な指標に適した影響スコア推定法を導出する。
論文参考訳（メタデータ） (2025-02-02T23:20:16Z)
Leveraging Semi-Supervised Learning to Enhance Data Mining for Image Classification under Limited Labeled Data [35.431340001608476]
従来のデータマイニング手法は、大規模で高次元で複雑なデータに直面すると不十分である。本研究では,ラベルのないデータを利用するアルゴリズムの能力向上を目的とした,半教師付き学習手法を提案する。具体的には、自己学習法を採用し、画像の特徴抽出と分類のための畳み込みニューラルネットワーク(CNN)と組み合わせる。
論文参考訳（メタデータ） (2024-11-27T18:59:50Z)
Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文参考訳（メタデータ） (2024-10-30T17:20:10Z)
Distributionally robust self-supervised learning for tabular data [4.172010719137041]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文参考訳（メタデータ） (2024-10-11T04:23:56Z)
Artificial Data Point Generation in Clustered Latent Space for Small Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。 AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。顔の表情データを利用してパーキンソン病検診に応用した。
論文参考訳（メタデータ） (2024-09-26T09:51:08Z)
Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文参考訳（メタデータ） (2024-08-14T20:14:42Z)
The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文参考訳（メタデータ） (2023-09-13T10:40:41Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文参考訳（メタデータ） (2022-08-24T23:18:08Z)
RandomSCM: interpretable ensembles of sparse classifiers tailored for omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文参考訳（メタデータ） (2022-08-11T13:55:04Z)
Effect of Balancing Data Using Synthetic Data on the Performance of Machine Learning Classifiers for Intrusion Detection in Computer Networks [3.233545237942899]
アカデミックと産業の研究者たちは、コンピュータネットワークのための侵入検知システム(IDSe)の設計と実装に機械学習(ML)技術を使用した。このようなシステムで使用される多くのデータセットでは、データは不均衡である(つまり、すべてのクラスが同じ量のサンプルを持っているわけではない)。また,CTGANが生成した合成試料とバランスの取れたデータセット上でのMLモデルのトレーニングにより,予測精度が最大8%向上した。
論文参考訳（メタデータ） (2022-04-01T00:25:11Z)
MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。 MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文参考訳（メタデータ） (2021-11-04T22:38:18Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
Machine learning with incomplete datasets using multi-objective optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。 NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文参考訳（メタデータ） (2020-12-04T03:44:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。