論文の概要: Using Synthetic Data for Machine Learning-based Childhood Vaccination Prediction in Narok, Kenya
- arxiv url: http://arxiv.org/abs/2604.08902v1
- Date: Fri, 10 Apr 2026 03:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.657105
- Title: Using Synthetic Data for Machine Learning-based Childhood Vaccination Prediction in Narok, Kenya
- Title(参考訳): ケニア・ナロクにおける機械学習による小児ワクチン接種予測のための合成データの利用
- Authors: Jimmy Bach, Yang Li, Yaqi Liu, John Sankok, Rose Kimani, Carrie B. Dolan, Julius N. Odhiambo, Haipeng Chen,
- Abstract要約: 遊牧民では、個人は子供として重要なワクチン接種を欠くリスクが増大する。
そのような人口の1つがケニアのナロク郡にあるマサイ族であり、そこでは高量で質の高いデータがないため、正確なカバレッジの見積もりを妨げている。
我々は,多人数で主要なワクチンが欠落するリスクのある子どもを特定し,タイムリーかつエビデンスに基づく介入を提供することを目標としている。
- 参考スコア(独自算出の注目度): 8.32817820047995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Limited data utilization in low-resource settings poses a barrier to the vaccine delivery ecosystem, undermining efforts to achieve equitable immunization coverage. In nomadic populations, individuals face an increased risk of missing crucial vaccination doses as children. One such population is the Maasai in Narok County, Kenya, where the absence of high-volume, quality data hampers accurate coverage estimates, impedes efficient resource allocation, and weakens the ability to deliver timely interventions. Additionally, data privacy concerns are heightened in groups with limited sensitive data. Objectives: First, we aim to identify children at risk of missing key vaccines across a large population to provide timely, evidence-based interventions that support increased vaccination coverage. Second, we aim to better protect the privacy of sensitive health data in a vulnerable population. Methods: We digitized 8 years of child vaccination records from the MOH 510 registry (n=6,913) and applied machine learning models (Logistic Regression and XGBoost) to identify children at risk. Additionally, we utilize a novel approach to tabular diffusion-based synthetic data generation (TabSyn) to protect patient privacy within the models. Results: Our findings show that classification techniques can reliably and successfully predict children at risk of missing a vaccine, with recall, precision, and F1-scores exceeding 90% for some vaccines modeled. Additionally, training these models with synthetic data rather than real data, thus preserving the privacy of individuals within the original dataset, does not lead to a loss in predictive performance. Conclusion: These results support the use of synthetic data implementation in health informatics strategies for clinics with limited digital infrastructure, enabling privacy-preserving, scalable forecasting for childhood immunization coverage.
- Abstract(参考訳): 背景: 低リソース環境における限られたデータ利用は、ワクチン提供エコシステムへの障壁となり、平等な免疫のカバーを達成するための努力を損なう。
遊牧民では、個人は子供として重要なワクチン接種を欠くリスクが増大する。
そのような人口の1つはケニアのナロク郡のマサイ族であり、大量のデータがないため、正確なカバレッジの見積もりを妨げ、効率的な資源配分を阻害し、タイムリーな介入を行う能力を弱める。
さらに、機密データに制限のあるグループでは、データのプライバシに関する懸念が高まっています。
目的: 第一に, 予防接種率の増加を支える, タイムリーかつエビデンスに基づく介入を提供するため, 集団で主要なワクチンが欠落するリスクのある子どもを同定することを目的とする。
第2に、脆弱な人口において、機密性の高い健康データのプライバシーをよりよく保護することを目的としている。
方法:MOH 510レジストリ (n=6,913) から8年間の予防接種記録をデジタル化し, リスク児の特定に機械学習モデル(ロジスティック回帰とXGBoost)を適用した。
さらに,表層拡散に基づく合成データ生成(TabSyn)の新たなアプローチを用いて,患者のプライバシを保護する。
結果: 診断手法は, ワクチンの欠失リスクのある子どもに対して, 再現率, 精度, F1スコアが90%を超えることを確実かつ確実に予測できることが示唆された。
さらに、これらのモデルを実際のデータではなく合成データでトレーニングすることで、元のデータセット内の個人のプライバシを保存することは、予測性能の損失につながることはない。
結論: これらの結果は, デジタルインフラが限られているクリニックの健康情報学戦略における総合的データ実装の活用を支援し, 子どもの予防接種に対するプライバシー保護, スケーラブルな予測を可能にした。
関連論文リスト
- An Analytical Approach to Privacy and Performance Trade-Offs in Healthcare Data Sharing [1.2179548969182572]
高齢者、頻繁に入院する患者、人種的少数派は、プライバシーの攻撃に弱い。
我々は,3つの匿名化手法($k$-anonymity, Zhengらによる手法,MO-OBAMモデル)を評価する。
論文 参考訳(メタデータ) (2025-08-25T21:36:47Z) - Cooperating Graph Neural Networks with Deep Reinforcement Learning for
Vaccine Prioritization [0.0]
本研究は,供給制限時のパンデミックの全体負担を軽減するためのワクチンの優先順位付け戦略について検討する。
既存の方法では、サブグループ集団内の均一な振る舞いを仮定してマクロレベルまたは単純化されたマイクロレベルワクチンの分布を行う。
我々は,高次空間時間病進化システムのための最適なワクチン配置戦略を求めるために,新しい深層強化学習を開発した。
論文 参考訳(メタデータ) (2023-05-09T04:19:10Z) - Temporal Robustness against Data Poisoning [69.01705108817785]
データ中毒は、悪意のあるトレーニングデータを通じて、敵対者が機械学習アルゴリズムの振る舞いを操作する場合を考慮している。
本研究では,攻撃開始時間と攻撃持続時間を測定する2つの新しい指標である耳線と持続時間を用いたデータ中毒の時間的脅威モデルを提案する。
論文 参考訳(メタデータ) (2023-02-07T18:59:19Z) - Private, fair and accurate: Training large-scale, privacy-preserving AI models in medical imaging [47.99192239793597]
我々は,AIモデルのプライバシ保護トレーニングが,非プライベートトレーニングと比較して精度と公平性に与える影響を評価した。
我々の研究は、実際の臨床データセットの困難な現実的な状況下では、診断深層学習モデルのプライバシー保護トレーニングは、優れた診断精度と公正さで可能であることを示しています。
論文 参考訳(メタデータ) (2023-02-03T09:49:13Z) - VaxxHesitancy: A Dataset for Studying Hesitancy towards COVID-19
Vaccination on Twitter [6.061534265076204]
新型コロナウイルス(COVID-19)ワクチン接種に対するユーザの態度を示す3,101件以上のツイートの新たなコレクションを作成します。
私たちの知る限りでは、ワクチンのヘシタシーを、予防的および抗ワクチン的スタンスとは異なるカテゴリとしてモデル化する最初のデータセットとモデルです。
論文 参考訳(メタデータ) (2023-01-17T02:00:31Z) - A feasibility study proposal of the predictive model to enable the
prediction of population susceptibility to COVID-19 by analysis of vaccine
utilization for advising deployment of a booster dose [0.0]
SARS-CoV-2 B1.1.529株またはOmicron株が世界中に分布する。
間もなく終わらないことや、より伝染的で有害な変種が現れるまで、時間との戦いになることを懸念する。
ウイルスの増殖を防ぐ最も有望なアプローチの1つは、持続的な高予防接種効果を維持することである。
論文 参考訳(メタデータ) (2022-04-25T16:05:59Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Epidemic mitigation by statistical inference from contact tracing data [61.04165571425021]
我々は,個人が感染するリスクを推定するためにベイズ推定法を開発した。
本稿では,感染防止のための検査・隔離戦略を最適化するために,確率論的リスク推定手法を提案する。
我々のアプローチは、最近接触した個人間の通信のみを必要とする、完全に分散されたアルゴリズムに変換されます。
論文 参考訳(メタデータ) (2020-09-20T12:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。