論文の概要: Mitigating Health Data Poverty: Generative Approaches versus Resampling
for Time-series Clinical Data
- arxiv url: http://arxiv.org/abs/2210.13958v1
- Date: Tue, 25 Oct 2022 12:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:12:22.082099
- Title: Mitigating Health Data Poverty: Generative Approaches versus Resampling
for Time-series Clinical Data
- Title(参考訳): 健康データ貧困の軽減--時系列臨床データに対する生成的アプローチと再サンプリング
- Authors: Raffaele Marchesi, Nicolo Micheletti, Giuseppe Jurman, Venet Osmani
- Abstract要約: 再サンプリング(SMOTEなど)を使用したマイノリティクラスの拡張は、アルゴリズムの単純さのために広く使われているアプローチである。
提案手法は, マイノリティクラスの真正データの生成と, 実データの元の分布に留まることの両立を図っている。
- 参考スコア(独自算出の注目度): 0.2867517731896504
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Several approaches have been developed to mitigate algorithmic bias stemming
from health data poverty, where minority groups are underrepresented in
training datasets. Augmenting the minority class using resampling (such as
SMOTE) is a widely used approach due to the simplicity of the algorithms.
However, these algorithms decrease data variability and may introduce
correlations between samples, giving rise to the use of generative approaches
based on GAN. Generation of high-dimensional, time-series, authentic data that
provides a wide distribution coverage of the real data, remains a challenging
task for both resampling and GAN-based approaches. In this work we propose
CA-GAN architecture that addresses some of the shortcomings of the current
approaches, where we provide a detailed comparison with both SMOTE and
WGAN-GP*, using a high-dimensional, time-series, real dataset of 3343
hypotensive Caucasian and Black patients. We show that our approach is better
at both generating authentic data of the minority class and remaining within
the original distribution of the real data.
- Abstract(参考訳): マイノリティグループがトレーニングデータセットで不足している健康データ貧困から生じるアルゴリズムバイアスを軽減するために、いくつかのアプローチが開発されている。
再サンプリング(SMOTEなど)を使用したマイノリティクラスの拡張は、アルゴリズムの単純さのために広く使われているアプローチである。
しかし、これらのアルゴリズムはデータのばらつきを減らし、サンプル間の相関を導入し、GANに基づく生成的アプローチを使用する。
実データの広範な分布範囲を提供する高次元,時系列,認証データの生成は,再サンプリングとGANベースのアプローチの両面で難しい課題である。
本稿では,現在のアプローチの欠点のいくつかに対処するCA-GANアーキテクチャを提案する。このアーキテクチャでは,高次元の時系列,3343名の低血圧コーカサス患者と黒人患者の実データを用いて,SMOTEとWGAN-GP*の両者を詳細に比較する。
提案手法は,マイノリティクラスの真正データの生成と,実際のデータの元の分布に留まることの両方に優れていることを示す。
関連論文リスト
- Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering [0.5735035463793009]
変分オートエンコーダ(VAE)を用いたSMOTEアルゴリズムの拡張フレームワークを提案する。
本稿では,VAEを用いて低次元潜在空間におけるデータ点密度を体系的に定量化し,クラスラベル情報と分類困難度を同時に統合する手法を提案する。
いくつかの不均衡データセットに関する実証的研究は、この単純なプロセスが、ディープラーニングモデルよりも従来のSMOTEアルゴリズムを革新的に改善することを示している。
論文 参考訳(メタデータ) (2024-05-30T07:06:02Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - Lung Cancer Risk Estimation with Incomplete Data: A Joint Missing
Imputation Perspective [5.64530854079352]
マルチモーダルデータの連成分布をモデル化することで、欠落データの計算に対処する。
本稿では, PBiGAN を用いた新しい条件付き PBiGAN (C-PBiGAN) 法を提案する。
C-PBiGANは, 肺がんのリスク評価において, 代表的計算法と比較して有意に改善した。
論文 参考訳(メタデータ) (2021-07-25T20:15:16Z) - Improving Generative Adversarial Networks with Local Coordinate Coding [150.24880482480455]
GAN(Generative Adversarial Network)は、事前定義された事前分布から現実的なデータを生成することに成功している。
実際には、意味情報はデータから学んだ潜在的な分布によって表現される。
ローカル座標符号化(LCC)を用いたLCCGANモデルを提案する。
論文 参考訳(メタデータ) (2020-07-28T09:17:50Z) - Minority Oversampling for Imbalanced Time Series Classification [7.695093197007146]
本稿では,高次元不均衡時間系列分類に対処するオーバーサンプリング手法を提案する。
いくつかの公開時系列データセットの実験結果は、最先端のオーバーサンプリングアルゴリズムに対するOHITの優位性を示している。
論文 参考訳(メタデータ) (2020-04-14T09:20:12Z) - Inclusive GAN: Improving Data and Minority Coverage in Generative Models [101.67587566218928]
データカバレッジの1つとしてマイノリティー・インクルージョンの問題を定式化する。
次に、再構成世代と敵対的トレーニングを調和させることにより、データカバレッジを改善することを提案する。
我々は、モデルが確実に含めるべきマイノリティサブグループを明示的に制御できる拡張を開発する。
論文 参考訳(メタデータ) (2020-04-07T13:31:33Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。