論文の概要: Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets
- arxiv url: http://arxiv.org/abs/2308.10120v1
- Date: Sat, 19 Aug 2023 22:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 17:36:23.762442
- Title: Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets
- Title(参考訳): BFBTベンチマークVoid Fractionデータセットを用いた深部モデルに基づくデータ拡張
- Authors: Farah Alsafadi, Xu Wu
- Abstract要約: 本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
- 参考スコア(独自算出の注目度): 3.341975883864341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) has achieved remarkable successes in many disciplines such
as computer vision and natural language processing due to the availability of
``big data''. However, such success cannot be easily replicated in many nuclear
engineering problems because of the limited amount of training data, especially
when the data comes from high-cost experiments. To overcome such a data
scarcity issue, this paper explores the applications of deep generative models
(DGMs) that have been widely used for image data generation to scientific data
augmentation. DGMs, such as generative adversarial networks (GANs), normalizing
flows (NFs), variational autoencoders (VAEs), and conditional VAEs (CVAEs), can
be trained to learn the underlying probabilistic distribution of the training
dataset. Once trained, they can be used to generate synthetic data that are
similar to the training data and significantly expand the dataset size. By
employing DGMs to augment TRACE simulated data of the steady-state void
fractions based on the NUPEC Boiling Water Reactor Full-size Fine-mesh Bundle
Test (BFBT) benchmark, this study demonstrates that VAEs, CVAEs, and GANs have
comparable generative performance with similar errors in the synthetic data,
with CVAEs achieving the smallest errors. The findings shows that DGMs have a
great potential to augment scientific data in nuclear engineering, which proves
effective for expanding the training dataset and enabling other DL models to be
trained more accurately.
- Abstract(参考訳): ディープラーニング(DL)は,コンピュータビジョンや自然言語処理など多くの分野において,‘ビッグデータ’の活用によって大きな成功を収めている。
しかし、この成功は多くの核工学問題において、特に高コスト実験によるデータの場合、訓練データの量が限られているため、容易に再現できない。
このようなデータ不足を克服するために,画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
DGM(Generative Adversarial Network, GAN)、正規化フロー(NF)、変動オートエンコーダ(VAE)、条件付きVAE(CVAE)など)はトレーニングデータセットの基本的な確率分布を学習するために訓練することができる。
トレーニングが完了すると、トレーニングデータに類似した合成データを生成し、データセットのサイズを大きく拡張するために使用することができる。
NUPECボイリング水反応器(英語版)のフルサイズファインメッシュバンドルテスト(BFBT)ベンチマークに基づいて, TRACE の定常空隙分数のシミュレーションデータを DGM を用いて拡張することにより, CVAE , CVAE および GAN は合成データに類似した誤差を伴い, CVAE が最小誤差を達成していることを示す。
その結果、dgmは核工学における科学的データを増強する大きな可能性を秘めており、トレーニングデータセットを拡大し、他のdlモデルをより正確に訓練することができることが証明された。
関連論文リスト
- Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - A Discriminative Bayesian Gaussian Process Latent Variable Model for
High-Dimensional Data [0.0]
ガウス過程(GP)を利用して高次元データを特徴付ける新しい非パラメトリックモデリング手法を提案する。
このモデルはLDGD(Latent Discrimi Generative Decoder)と呼ばれ、多様体発見プロセスにおいてデータ(またはその特徴)と関連するラベル(カテゴリや刺激など)の両方を利用する。
LDGDはその多様体を正確に推定するだけでなく、予測ラベルの予測精度は最先端のアプローチを上回る。
論文 参考訳(メタデータ) (2024-01-29T19:11:03Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Enhancing ML model accuracy for Digital VLSI circuits using diffusion
models: A study on synthetic data generation [0.5363664265121232]
本研究では,電子回路の人工データ生成における拡散モデルの利用について検討した。
我々は,22nmCMOS技術ノードを用いたHSPICE設計環境におけるシミュレーションを用いて,提案した拡散モデルのための代表的実時間トレーニングデータを得る。
論文 参考訳(メタデータ) (2023-10-15T14:20:09Z) - Generative adversarial networks for data-scarce spectral applications [0.0]
合成スペクトルデータ生成分野におけるGANの応用について報告する。
CWGANは,低データ方式の性能向上を図り,サロゲートモデルとして機能することを示す。
論文 参考訳(メタデータ) (2023-07-14T16:27:24Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning [0.0]
損失のある圧縮アルゴリズムは、オープンソースのデータレポジトリに高忠実な科学データを公開するための現実的な経路を提供することを示す。
本稿では,ビッグデータフレームワークの構築に必要な要件を概説し,構築し,評価する。
論文 参考訳(メタデータ) (2022-07-25T21:44:53Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。