論文の概要: Conditional Synthetic Data Generation for Robust Machine Learning
Applications with Limited Pandemic Data
- arxiv url: http://arxiv.org/abs/2109.06486v1
- Date: Tue, 14 Sep 2021 07:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:33:12.815788
- Title: Conditional Synthetic Data Generation for Robust Machine Learning
Applications with Limited Pandemic Data
- Title(参考訳): 限定的パンデミックデータを用いたロバストな機械学習アプリケーションのための条件付き合成データ生成
- Authors: Hari Prasanna Das, Ryan Tran, Japjot Singh, Xiangyu Yue, Geoff Tison,
Alberto Sangiovanni-Vincentelli, Costas J. Spanos
- Abstract要約: 条件付き生成フローと条件付き合成データ生成のための分類器からなるハイブリッドモデルを提案する。
固定条件特徴表現を用いて局所雑音を操作することで合成データを生成する。
本手法は,定性および定量的性能の両方において,既存モデルよりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 11.535196994689501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: $\textbf{Background:}$ At the onset of a pandemic, such as COVID-19, data
with proper labeling/attributes corresponding to the new disease might be
unavailable or sparse. Machine Learning (ML) models trained with the available
data, which is limited in quantity and poor in diversity, will often be biased
and inaccurate. At the same time, ML algorithms designed to fight pandemics
must have good performance and be developed in a time-sensitive manner. To
tackle the challenges of limited data, and label scarcity in the available
data, we propose generating conditional synthetic data, to be used alongside
real data for developing robust ML models. $\textbf{Methods:}$ We present a
hybrid model consisting of a conditional generative flow and a classifier for
conditional synthetic data generation. The classifier decouples the feature
representation for the condition, which is fed to the flow to extract the local
noise. We generate synthetic data by manipulating the local noise with fixed
conditional feature representation. We also propose a semi-supervised approach
to generate synthetic samples in the absence of labels for a majority of the
available data. $\textbf{Results:}$ We performed conditional synthetic
generation for chest computed tomography (CT) scans corresponding to normal,
COVID-19, and pneumonia afflicted patients. We show that our method
significantly outperforms existing models both on qualitative and quantitative
performance, and our semi-supervised approach can efficiently synthesize
conditional samples under label scarcity. As an example of downstream use of
synthetic data, we show improvement in COVID-19 detection from CT scans with
conditional synthetic data augmentation.
- Abstract(参考訳): $\textbf{Background:}$COVID-19のようなパンデミックの開始時に、新しい病気に対応する適切なラベル付け/属性を持つデータが利用できないか、あるいは不足している可能性がある。
利用可能なデータでトレーニングされた機械学習(ML)モデルは、量的に制限され、多様性が低いため、バイアスや不正確な場合が多い。
同時に、パンデミックと戦うために設計されたMLアルゴリズムは、優れたパフォーマンスを備え、時間に敏感な方法で開発されなければならない。
限られたデータの課題に対処し、利用可能なデータのラベル不足に対処するため、実データと並行して条件付き合成データを生成し、堅牢なMLモデルを開発することを提案する。
$\textbf{Methods:}$ 条件生成フローと条件合成データ生成のための分類器からなるハイブリッドモデルを示す。
分類器は、局所ノイズを抽出するためにフローに供給される条件の特徴表現を分離する。
局所雑音を定条件特徴表現で操作することで合成データを生成する。
また,利用可能なデータの大部分をラベル無しで合成サンプルを生成するための半教師付き手法を提案する。
正常患者、covid-19患者、肺炎患者に対応する胸部ctスキャンで条件付き合成生成を行った。
本手法は,定性および定量的性能の両方において既存モデルよりも有意に優れており,ラベル不足下で条件付きサンプルを効率的に合成することができる。
合成データの下流利用の一例として, 条件付き合成データ拡張によるCTスキャンからのCOVID-19検出の改善を示す。
関連論文リスト
- Optimal Transport-Guided Conditional Score-Based Diffusion Models [63.14903268958398]
条件付きスコアベース拡散モデル(SBDM)は、条件付きデータを条件としてターゲットデータの条件付き生成を行い、画像翻訳において大きな成功を収めた。
本稿では, 最適輸送誘導条件付きスコアベース拡散モデル(OTCS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T13:28:44Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Can segmentation models be trained with fully synthetically generated
data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。
brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文 参考訳(メタデータ) (2022-09-17T05:24:04Z) - A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。
合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文 参考訳(メタデータ) (2022-05-31T23:40:21Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Copula Flows for Synthetic Data Generation [0.5801044612920815]
確率モデルを合成データ生成器として用いることを提案する。
密度推定の手法として,シミュレーションと実データの両方をベンチマークした。
論文 参考訳(メタデータ) (2021-01-03T10:06:23Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。