論文の概要: Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets
- arxiv url: http://arxiv.org/abs/2308.10120v1
- Date: Sat, 19 Aug 2023 22:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:36:23.762442
- Title: Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets
- Title(参考訳): BFBTベンチマークVoid Fractionデータセットを用いた深部モデルに基づくデータ拡張
- Authors: Farah Alsafadi, Xu Wu
- Abstract要約: 本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
- 参考スコア(独自算出の注目度): 3.341975883864341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has achieved remarkable successes in many disciplines such
as computer vision and natural language processing due to the availability of
``big data''. However, such success cannot be easily replicated in many nuclear
engineering problems because of the limited amount of training data, especially
when the data comes from high-cost experiments. To overcome such a data
scarcity issue, this paper explores the applications of deep generative models
(DGMs) that have been widely used for image data generation to scientific data
augmentation. DGMs, such as generative adversarial networks (GANs), normalizing
flows (NFs), variational autoencoders (VAEs), and conditional VAEs (CVAEs), can
be trained to learn the underlying probabilistic distribution of the training
dataset. Once trained, they can be used to generate synthetic data that are
similar to the training data and significantly expand the dataset size. By
employing DGMs to augment TRACE simulated data of the steady-state void
fractions based on the NUPEC Boiling Water Reactor Full-size Fine-mesh Bundle
Test (BFBT) benchmark, this study demonstrates that VAEs, CVAEs, and GANs have
comparable generative performance with similar errors in the synthetic data,
with CVAEs achieving the smallest errors. The findings shows that DGMs have a
great potential to augment scientific data in nuclear engineering, which proves
effective for expanding the training dataset and enabling other DL models to be
trained more accurately.
- Abstract(参考訳): ディープラーニング(DL)は,コンピュータビジョンや自然言語処理など多くの分野において,‘ビッグデータ’の活用によって大きな成功を収めている。
しかし、この成功は多くの核工学問題において、特に高コスト実験によるデータの場合、訓練データの量が限られているため、容易に再現できない。
このようなデータ不足を克服するために,画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
DGM(Generative Adversarial Network, GAN)、正規化フロー(NF)、変動オートエンコーダ(VAE)、条件付きVAE(CVAE)など)はトレーニングデータセットの基本的な確率分布を学習するために訓練することができる。
トレーニングが完了すると、トレーニングデータに類似した合成データを生成し、データセットのサイズを大きく拡張するために使用することができる。
NUPECボイリング水反応器(英語版)のフルサイズファインメッシュバンドルテスト(BFBT)ベンチマークに基づいて, TRACE の定常空隙分数のシミュレーションデータを DGM を用いて拡張することにより, CVAE , CVAE および GAN は合成データに類似した誤差を伴い, CVAE が最小誤差を達成していることを示す。
その結果、dgmは核工学における科学的データを増強する大きな可能性を秘めており、トレーニングデータセットを拡大し、他のdlモデルをより正確に訓練することができることが証明された。
関連論文リスト
- Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Data Augmentation via Diffusion Model to Enhance AI Fairness [1.2979015577834876]
本稿では,AIフェアネスを改善するために合成データを生成する拡散モデルの可能性について検討する。
Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM) を用いてデータ拡張を行った。
実験結果から,Tab-DDPMにより生成された合成データは,二項分類の公平性を向上させることが示された。
論文 参考訳(メタデータ) (2024-10-20T18:52:31Z) - Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。