論文の概要: Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets
- arxiv url: http://arxiv.org/abs/2211.02856v1
- Date: Sat, 5 Nov 2022 09:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:43:51.403724
- Title: Towards a methodology for addressing missingness in datasets, with an
application to demographic health datasets
- Title(参考訳): データセットの欠落に対処する方法論と人口統計学的健康データセットへの応用
- Authors: Gift Khangamwa, Terence L. van Zyl and Clint J. van Alten
- Abstract要約: 本稿では, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせることで, 欠落データ問題に対処する手法を提案する。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 %$と 80 %$ on $a) $ an unseen real dataset and $b)$ an unseen reserve synthetic test dataset と予測できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Missing data is a common concern in health datasets, and its impact on good
decision-making processes is well documented. Our study's contribution is a
methodology for tackling missing data problems using a combination of synthetic
dataset generation, missing data imputation and deep learning methods to
resolve missing data challenges. Specifically, we conducted a series of
experiments with these objectives; $a)$ generating a realistic synthetic
dataset, $b)$ simulating data missingness, $c)$ recovering the missing data,
and $d)$ analyzing imputation performance. Our methodology used a gaussian
mixture model whose parameters were learned from a cleaned subset of a real
demographic and health dataset to generate the synthetic data. We simulated
various missingness degrees ranging from $10 \%$, $20 \%$, $30 \%$, and $40\%$
under the missing completely at random scheme MCAR. We used an integrated
performance analysis framework involving clustering, classification and direct
imputation analysis. Our results show that models trained on synthetic and
imputed datasets could make predictions with an accuracy of $83 \%$ and $80 \%$
on $a) $ an unseen real dataset and $b)$ an unseen reserved synthetic test
dataset, respectively. Moreover, the models that used the DAE method for
imputed yielded the lowest log loss an indication of good performance, even
though the accuracy measures were slightly lower. In conclusion, our work
demonstrates that using our methodology, one can reverse engineer a solution to
resolve missingness on an unseen dataset with missingness. Moreover, though we
used a health dataset, our methodology can be utilized in other contexts.
- Abstract(参考訳): データの欠如は、健康データセットの一般的な懸念であり、優れた意思決定プロセスへの影響は、十分に文書化されている。
本研究の貢献は, 欠落データ問題を解決するために, 合成データセット生成, 欠落データ計算, 深層学習を組み合わせて, 欠落データ問題に対処する手法である。
具体的には、これらの目的の一連の実験を行った: $a)$ 現実的な合成データセットの生成; $b)$ データの欠落をシミュレートする; $c)$ 欠落したデータを復元する; $d)$ インプテーションのパフォーマンスを分析する。
提案手法では,実際の人口統計および健康データセットのクリーン化サブセットからパラメータを学習したガウス混合モデルを用いて合成データを生成する。
我々は,無作為スキームmcarの欠落条件下で10ドル$%,20ドル$%,30ドル$%,40ドル$の様々な欠落度をシミュレートした。
我々は,クラスタリング,分類,直接的インプテーション解析を含む統合パフォーマンス分析フレームワークを用いた。
以上の結果から, 合成データセットとインプットデータセットでトレーニングしたモデルでは, 精度が 83 \%$ および $80 \%$ on $a) $ an unseen real dataset と $b) $ an unseen reserve synthetic test dataset の予測が可能であることが示唆された。
また, dae法をインデュートに用いたモデルでは, 精度がやや低かったにもかかわらず, ログロスが最も低い値を示した。
結論として,本研究は,我々の手法を用いて,見当たらないデータセットの欠如を解決するソリューションをリバースエンジニアリングできることを実証する。
さらに,健康データセットを用いたが,その方法論は他の文脈でも利用可能である。
関連論文リスト
- M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文 参考訳(メタデータ) (2024-10-11T13:25:32Z) - Towards Reducing Data Acquisition and Labeling for Defect Detection using Simulated Data [0.04194295877935867]
多くの製造環境では、機械学習やコンピュータビジョンのためのアノテートデータがコストがかかるが、合成データは大幅に低コストで生成される。
したがって、実世界のデータを合成データで置き換えることは、大量のトレーニングデータを必要とする多くの機械学習アプリケーションにとって魅力的である。
アルミニウムホイールのX線スキャンにおける欠陥を検出する際に,そのような領域シフトに対処するためのアプローチについて議論する。
論文 参考訳(メタデータ) (2024-06-27T13:51:53Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - How Good Are Synthetic Medical Images? An Empirical Study with Lung
Ultrasound [0.3312417881789094]
生成モデルを使用して合成トレーニングデータを追加することで、データの不足に対処するための低コストな方法が提供される。
合成データと実データの両方によるトレーニングは、実データのみによるトレーニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-05T15:42:53Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。