論文の概要: Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets
- arxiv url: http://arxiv.org/abs/2211.02856v1
- Date: Sat, 5 Nov 2022 09:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:43:51.403724
- Title: Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets
- Title(参考訳): データセットの欠落に対処する方法論と人口統計学的健康データセットへの応用
- Authors: Gift Khangamwa, Terence L. van Zyl and Clint J. van Alten
- Abstract要約: 本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Missing data is a common concern in health datasets, and its impact on good
decision-making processes is well documented. Our study's contribution is a
methodology for tackling missing data problems using a combination of synthetic
dataset generation, missing data imputation and deep learning methods to
resolve missing data challenges. Specifically, we conducted a series of
experiments with these objectives; $a)$ generating a realistic synthetic
dataset, $b)$ simulating data missingness, $c)$ recovering the missing data,
and $d)$ analyzing imputation performance. Our methodology used a gaussian
mixture model whose parameters were learned from a cleaned subset of a real
demographic and health dataset to generate the synthetic data. We simulated
various missingness degrees ranging from $10 \%$, $20 \%$, $30 \%$, and $40\%$
under the missing completely at random scheme MCAR. We used an integrated
performance analysis framework involving clustering, classification and direct
imputation analysis. Our results show that models trained on synthetic and
imputed datasets could make predictions with an accuracy of $83 \%$ and $80 \%$
on $a) $ an unseen real dataset and $b)$ an unseen reserved synthetic test
dataset, respectively. Moreover, the models that used the DAE method for
imputed yielded the lowest log loss an indication of good performance, even
though the accuracy measures were slightly lower. In conclusion, our work
demonstrates that using our methodology, one can reverse engineer a solution to
resolve missingness on an unseen dataset with missingness. Moreover, though we
used a health dataset, our methodology can be utilized in other contexts.
- Abstract(参考訳): データの欠如は、健康データセットの一般的な懸念であり、優れた意思決定プロセスへの影響は、十分に文書化されている。
本研究の貢献は, 欠落データ問題を解決するために, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせて, 欠落データ問題に対処する手法である。
具体的には、これらの目的の一連の実験を行った: $a)$ 現実的な合成データセットの生成; $b)$ データの欠落をシミュレートする; $c)$ 欠落したデータを復元する; $d)$ インプテーションのパフォーマンスを分析する。
提案手法では,実際の人口統計および健康データセットのクリーン化サブセットからパラメータを学習したガウス混合モデルを用いて合成データを生成する。
我々は,無作為スキームmcarの欠落条件下で10ドル$%,20ドル$%,30ドル$%,40ドル$の様々な欠落度をシミュレートした。
我々は,クラスタリング,分類,直接的インプテーション解析を含む統合パフォーマンス分析フレームワークを用いた。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 \%$ および $80 \%$ on $a) $ an unseen real dataset と $b) $ an unseen reserve synthetic test dataset の予測が可能であることが示唆された。
また, dae法をインデュートに用いたモデルでは, 精度がやや低かったにもかかわらず, ログロスが最も低い値を示した。
結論として,本研究は,我々の手法を用いて,見当たらないデータセットの欠如を解決するソリューションをリバースエンジニアリングできることを実証する。
さらに,健康データセットを用いたが,その方法論は他の文脈でも利用可能である。
関連論文リスト
- Scaling laws for learning with real and surrogate data [14.18068523784685]
シュロゲートデータをトレーニングに統合することで、元のディストリビューションでのテストエラーを大幅に削減できる。
実データと代理データの混合に基づいてトレーニングされたモデルのテストエラーは、スケーリング法則によってよく説明される。
論文 参考訳(メタデータ) (2024-02-06T20:30:19Z) - Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction [9.664420734674088]
本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-03T00:38:08Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Self-Supervised Dataset Distillation for Transfer Learning [82.09002658558529]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FCMI: Feature Correlation based Missing Data Imputation [0.0]
本稿では,FCMIと呼ばれる相関関係に基づいて,データセットの欠落を補足する効率的な手法を提案する。
提案アルゴリズムはデータセットの高相関属性を選択し,これらの属性を用いて回帰モデルを構築する。
分類データセットと回帰データセットの両方で行った実験により,提案手法が既存の計算アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2021-06-26T13:35:33Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。