論文の概要: The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning
- arxiv url: http://arxiv.org/abs/2207.12546v1
- Date: Mon, 25 Jul 2022 21:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:23:47.135361
- Title: The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning
- Title(参考訳): ビッグデータのベアブル・ライトネス:科学機械学習における膨大な公開データセットを目指して
- Authors: Wai Tong Chung and Ki Sung Jung and Jacqueline H. Chen and Matthias
Ihme
- Abstract要約: 損失のある圧縮アルゴリズムは、オープンソースのデータレポジトリに高忠実な科学データを公開するための現実的な経路を提供することを示す。
本稿では,ビッグデータフレームワークの構築に必要な要件を概説し,構築し,評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In general, large datasets enable deep learning models to perform with good
accuracy and generalizability. However, massive high-fidelity simulation
datasets (from molecular chemistry, astrophysics, computational fluid dynamics
(CFD), etc. can be challenging to curate due to dimensionality and storage
constraints. Lossy compression algorithms can help mitigate limitations from
storage, as long as the overall data fidelity is preserved. To illustrate this
point, we demonstrate that deep learning models, trained and tested on data
from a petascale CFD simulation, are robust to errors introduced during lossy
compression in a semantic segmentation problem. Our results demonstrate that
lossy compression algorithms offer a realistic pathway for exposing
high-fidelity scientific data to open-source data repositories for building
community datasets. In this paper, we outline, construct, and evaluate the
requirements for establishing a big data framework, demonstrated at
https://blastnet.github.io/, for scientific machine learning.
- Abstract(参考訳): 一般的に、大規模なデータセットは、ディープラーニングモデルが精度と一般化性が向上する。
しかし, 分子化学, 天体物理学, 計算流体力学(CFD)などからの高忠実度シミュレーションデータセットは, 次元性や記憶の制約により計算が困難である。
損失のある圧縮アルゴリズムは、データ完全性が保存されている限り、ストレージの制限を緩和するのに役立つ。
この点を説明するために,petascale cfdシミュレーションのデータに基づいてトレーニングおよびテストされた深層学習モデルは,意味セグメンテーション問題において損失圧縮中に生じる誤りに対して頑健であることを示す。
この結果から, コミュニティデータセット構築のためのオープンソースデータリポジトリに, 高忠実度科学データを公開するための現実的な手法が得られた。
本稿では,ビッグデータフレームワーク構築の要件を概説,構築,評価し,科学的機械学習のためのhttps://blastnet.github.io/で実証する。
関連論文リスト
- Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文 参考訳(メタデータ) (2023-08-19T22:19:41Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - A Physics-Informed Vector Quantized Autoencoder for Data Compression of
Turbulent Flow [28.992515947961593]
本研究では,ベクトル量子化に基づく物理インフォームドディープラーニング手法を適用し,乱流から低次元のデータ表現を生成する。
モデルの精度は、統計的・比較的類似度と物理的類似度を用いて評価される。
我々のモデルは、平均二乗誤差(MSE)が$O(10-3)$のCR$=85$と、非常に小さなスケールを除いて流れの統計を忠実に再現する予測を提供する。
論文 参考訳(メタデータ) (2022-01-10T19:55:50Z) - Audacity of huge: overcoming challenges of data scarcity and data
quality for machine learning in computational materials discovery [1.0036312061637764]
機械学習(ML)に加速された発見は、予測構造とプロパティの関係を明らかにするために大量の高忠実度データを必要とする。
材料発見に関心を持つ多くの特性において、データ生成の挑戦的な性質と高いコストは、人口が少なく、疑わしい品質を持つデータランドスケープを生み出している。
手作業によるキュレーションがなければ、より洗練された自然言語処理と自動画像解析により、文献から構造-プロパティ関係を学習できるようになる。
論文 参考訳(メタデータ) (2021-11-02T21:43:58Z) - Making Invisible Visible: Data-Driven Seismic Inversion with
Physics-Informed Data Augmentation [6.079137591620588]
我々は、畳み込みニューラルネットワークに基づく新しい物理インフォームドデータ拡張技術を開発した。
具体的には、生成モデルは、異なる物理知識(支配方程式、観測可能な知覚、物理現象など)を活用して、合成データの質を向上させる。
物理インフォームドデータ拡張技術を用いることで,データ駆動型地震探査を著しく向上できることを示す。
論文 参考訳(メタデータ) (2021-06-22T15:59:44Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。