Fugu-MT 論文翻訳(概要): Conditional Synthetic Data Generation for Robust Machine Learning Applications with Limited Pandemic Data

論文の概要: Conditional Synthetic Data Generation for Robust Machine Learning Applications with Limited Pandemic Data

arxiv url: http://arxiv.org/abs/2109.06486v1
Date: Tue, 14 Sep 2021 07:30:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-15 15:33:12.815788
Title: Conditional Synthetic Data Generation for Robust Machine Learning Applications with Limited Pandemic Data
Title（参考訳）: 限定的パンデミックデータを用いたロバストな機械学習アプリケーションのための条件付き合成データ生成
Authors: Hari Prasanna Das, Ryan Tran, Japjot Singh, Xiangyu Yue, Geoff Tison, Alberto Sangiovanni-Vincentelli, Costas J. Spanos
Abstract要約: 条件付き生成フローと条件付き合成データ生成のための分類器からなるハイブリッドモデルを提案する。固定条件特徴表現を用いて局所雑音を操作することで合成データを生成する。本手法は,定性および定量的性能の両方において,既存モデルよりも有意に優れていることを示す。
参考スコア（独自算出の注目度）: 11.535196994689501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: $\textbf{Background:}$ At the onset of a pandemic, such as COVID-19, data with proper labeling/attributes corresponding to the new disease might be unavailable or sparse. Machine Learning (ML) models trained with the available data, which is limited in quantity and poor in diversity, will often be biased and inaccurate. At the same time, ML algorithms designed to fight pandemics must have good performance and be developed in a time-sensitive manner. To tackle the challenges of limited data, and label scarcity in the available data, we propose generating conditional synthetic data, to be used alongside real data for developing robust ML models. $\textbf{Methods:}$ We present a hybrid model consisting of a conditional generative flow and a classifier for conditional synthetic data generation. The classifier decouples the feature representation for the condition, which is fed to the flow to extract the local noise. We generate synthetic data by manipulating the local noise with fixed conditional feature representation. We also propose a semi-supervised approach to generate synthetic samples in the absence of labels for a majority of the available data. $\textbf{Results:}$ We performed conditional synthetic generation for chest computed tomography (CT) scans corresponding to normal, COVID-19, and pneumonia afflicted patients. We show that our method significantly outperforms existing models both on qualitative and quantitative performance, and our semi-supervised approach can efficiently synthesize conditional samples under label scarcity. As an example of downstream use of synthetic data, we show improvement in COVID-19 detection from CT scans with conditional synthetic data augmentation.
Abstract（参考訳）: $\textbf{Background:}$COVID-19のようなパンデミックの開始時に、新しい病気に対応する適切なラベル付け/属性を持つデータが利用できないか、あるいは不足している可能性がある。利用可能なデータでトレーニングされた機械学習(ML)モデルは、量的に制限され、多様性が低いため、バイアスや不正確な場合が多い。同時に、パンデミックと戦うために設計されたMLアルゴリズムは、優れたパフォーマンスを備え、時間に敏感な方法で開発されなければならない。限られたデータの課題に対処し、利用可能なデータのラベル不足に対処するため、実データと並行して条件付き合成データを生成し、堅牢なMLモデルを開発することを提案する。 $\textbf{Methods:}$ 条件生成フローと条件合成データ生成のための分類器からなるハイブリッドモデルを示す。分類器は、局所ノイズを抽出するためにフローに供給される条件の特徴表現を分離する。局所雑音を定条件特徴表現で操作することで合成データを生成する。また,利用可能なデータの大部分をラベル無しで合成サンプルを生成するための半教師付き手法を提案する。正常患者、covid-19患者、肺炎患者に対応する胸部ctスキャンで条件付き合成生成を行った。本手法は,定性および定量的性能の両方において既存モデルよりも有意に優れており,ラベル不足下で条件付きサンプルを効率的に合成することができる。合成データの下流利用の一例として, 条件付き合成データ拡張によるCTスキャンからのCOVID-19検出の改善を示す。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory [8.713796223707398]
実データと合成データを混合して学習したバイナリ分類器の性能を,ランダム行列理論を用いて導出する。本研究は, 生成モデルの品質と検証戦略に焦点をあてて, 合成データにより性能が向上する条件を明らかにした。
論文参考訳（メタデータ） (2024-10-11T16:09:27Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文参考訳（メタデータ） (2024-06-11T17:46:16Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Can segmentation models be trained with fully synthetically generated data? [0.39577682622066246]
BrainSPADEは、合成拡散ベースのラベルジェネレータとセマンティックイメージジェネレータを組み合わせたモデルである。本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成でき, 任意のガイド型MRI画像を生成することができる。 brainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。
論文参考訳（メタデータ） (2022-09-17T05:24:04Z)
A Kernelised Stein Statistic for Assessing Implicit Generative Models [10.616967871198689]
本稿では,合成データ生成装置の品質を評価するための基本手法を提案する。合成データ生成装置からのサンプルサイズは所望の大きさで、生成装置がエミュレートすることを目的とした観測データのサイズは固定される。
論文参考訳（メタデータ） (2022-05-31T23:40:21Z)
Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。 CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文参考訳（メタデータ） (2021-05-18T15:13:00Z)
Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。 AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文参考訳（メタデータ） (2020-10-24T07:01:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。