論文の概要: A Novel GAN Approach to Augment Limited Tabular Data for Short-Term Substance Use Prediction
- arxiv url: http://arxiv.org/abs/2407.13047v1
- Date: Wed, 17 Jul 2024 23:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 19:13:43.387580
- Title: A Novel GAN Approach to Augment Limited Tabular Data for Short-Term Substance Use Prediction
- Title(参考訳): 短時間使用予測のための限定語彙データ拡張のための新しいGANアプローチ
- Authors: Nguyen Thach, Patrick Habecker, Bergen Johnston, Lillianna Cervantes, Anika Eisenbraun, Alex Mason, Kimberly Tyler, Bilal Khan, Hau Chan,
- Abstract要約: 薬物使用者の短期的物質使用行動(PWUD)を正確に予測するための機械学習モデルの有用性が注目されている。
本稿では,米国大平原における258PWUDの縦断調査データを用いて,新しいGANを開発した。
以上の結果から,提案したGANの強化データを用いてトレーニングすると,マリファナ,メス,アンフェタミン,コカインの使用において,Aの13.4%,Bの15.8%の予測性能(AUROC)が向上することが示唆された。
- 参考スコア(独自算出の注目度): 10.490455676403974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Substance use is a global issue that negatively impacts millions of persons who use drugs (PWUDs). In practice, identifying vulnerable PWUDs for efficient allocation of appropriate resources is challenging due to their complex use patterns (e.g., their tendency to change usage within months) and the high acquisition costs for collecting PWUD-focused substance use data. Thus, there has been a paucity of machine learning models for accurately predicting short-term substance use behaviors of PWUDs. In this paper, using longitudinal survey data of 258 PWUDs in the U.S. Great Plains collected by our team, we design a novel GAN that deals with high-dimensional low-sample-size tabular data and survey skip logic to augment existing data to improve classification models' prediction on (A) whether the PWUDs would increase usage and (B) at which ordinal frequency they would use a particular drug within the next 12 months. Our evaluation results show that, when trained on augmented data from our proposed GAN, the classification models improve their predictive performance (AUROC) by up to 13.4% in Problem (A) and 15.8% in Problem (B) for usage of marijuana, meth, amphetamines, and cocaine, which outperform state-of-the-art generative models.
- Abstract(参考訳): 物質使用は、何百万人もの薬物使用者(PWUD)に悪影響を及ぼす世界的な問題である。
実際に、適切なリソースを効率的に割り当てるための脆弱なPWUDを特定することは、複雑な使用パターン(例えば、数ヶ月で使用量を変える傾向)と、PWUDに焦点を当てた物質使用データを収集するための高い取得コストのために困難である。
したがって、PWUDの短期的物質使用行動の正確な予測には、機械学習モデルが多用されている。
本稿では,米国大平原で収集された258個のPWUDの経時的調査データを用いて,高次元の低サンプルサイズの表型データを扱う新しいGANを設計し,既存のデータを拡張して,PWUDが使用量を増加させるかどうか,および,今後12ヶ月以内に特定の薬物を使用する経時的頻度の予測を改善する。
評価の結果,提案したGANの強化データを用いてトレーニングすると,マリファナ,メス,アンフェタミン,コカインを用いて,予測性能(A)が最大13.4%向上し,問題(B)が最大15.8%向上した。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in
Influence Estimation [58.20016784231991]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
Contrastive Self-Supervised Learning (SSL)はラベル付きデータの不足に対する潜在的な解決策を提供する。
1次元心電図(PCG)分類におけるコントラスト学習の最適化を提案する。
トレーニング分布によっては、完全教師付きモデルの有効性が最大32%低下し、SSLモデルは最大10%低下し、場合によっては改善される。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - Towards a more inductive world for drug repurposing approaches [0.545520830707066]
ドラッグ・ターゲット・インタラクション(DTI)の予測は、薬物再資源化において重要な課題である。
DTI予測法は一般化に欠け, インフレーション性能を損なうことを示す。
そこで本研究では, 生物学的に駆動される負のエッジサブサンプリングの戦略を提案し, 新たに発見された相互作用が真であることをin vitroで検証した。
論文 参考訳(メタデータ) (2023-11-21T15:28:44Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - LRDB: LSTM Raw data DNA Base-caller based on long-short term models in
an active learning environment [1.452875650827562]
本稿では, 対象菌試料の読み出し精度を向上した, プライベート開発のための軽量オープンソースモデルを提案する。
我々は、訓練データの範囲を制限し、重要なアプリケーションでLRDBのアクティブな使用を可能にするために、転送学習アルゴリズムの恩恵を受けている。
論文 参考訳(メタデータ) (2023-03-15T20:18:27Z) - Calibrating Agent-based Models to Microdata with Graph Neural Networks [1.4911092205861822]
エージェントベースモデル(ABM)をデータにキャリブレーションすることは、モデルがその目的を確実に満たすための最も基本的な要件である。
本稿では、時間グラフニューラルネットワークを用いて、粒状マイクロデータに付随するパラメータ後部を学習する。
論文 参考訳(メタデータ) (2022-06-15T14:41:43Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - A comparison of approaches to improve worst-case predictive model
performance over patient subpopulations [14.175321968797252]
患者において平均的に正確な臨床結果の予測モデルは、いくつかのサブ集団に対して劇的に過小評価される可能性がある。
サブポピュレーションに対する解離および最悪の性能を一貫して改善するモデル開発と選択のアプローチを同定する。
本研究は, 比較的少数の例外を除いて, 標準学習法よりも, 患者サブポピュレーションに対するアプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2021-08-27T13:10:00Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。