論文の概要: The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning
- arxiv url: http://arxiv.org/abs/2207.12546v1
- Date: Mon, 25 Jul 2022 21:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 13:23:47.135361
- Title: The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning
- Title(参考訳): ビッグデータのベアブル・ライトネス:科学機械学習における膨大な公開データセットを目指して
- Authors: Wai Tong Chung and Ki Sung Jung and Jacqueline H. Chen and Matthias
Ihme
- Abstract要約: 損失のある圧縮アルゴリズムは、オープンソースのデータレポジトリに高忠実な科学データを公開するための現実的な経路を提供することを示す。
本稿では,ビッグデータフレームワークの構築に必要な要件を概説し,構築し,評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In general, large datasets enable deep learning models to perform with good
accuracy and generalizability. However, massive high-fidelity simulation
datasets (from molecular chemistry, astrophysics, computational fluid dynamics
(CFD), etc. can be challenging to curate due to dimensionality and storage
constraints. Lossy compression algorithms can help mitigate limitations from
storage, as long as the overall data fidelity is preserved. To illustrate this
point, we demonstrate that deep learning models, trained and tested on data
from a petascale CFD simulation, are robust to errors introduced during lossy
compression in a semantic segmentation problem. Our results demonstrate that
lossy compression algorithms offer a realistic pathway for exposing
high-fidelity scientific data to open-source data repositories for building
community datasets. In this paper, we outline, construct, and evaluate the
requirements for establishing a big data framework, demonstrated at
https://blastnet.github.io/, for scientific machine learning.
- Abstract(参考訳): 一般的に、大規模なデータセットは、ディープラーニングモデルが精度と一般化性が向上する。
しかし, 分子化学, 天体物理学, 計算流体力学(CFD)などからの高忠実度シミュレーションデータセットは, 次元性や記憶の制約により計算が困難である。
損失のある圧縮アルゴリズムは、データ完全性が保存されている限り、ストレージの制限を緩和するのに役立つ。
この点を説明するために,petascale cfdシミュレーションのデータに基づいてトレーニングおよびテストされた深層学習モデルは,意味セグメンテーション問題において損失圧縮中に生じる誤りに対して頑健であることを示す。
この結果から, コミュニティデータセット構築のためのオープンソースデータリポジトリに, 高忠実度科学データを公開するための現実的な手法が得られた。
本稿では,ビッグデータフレームワーク構築の要件を概説,構築,評価し,科学的機械学習のためのhttps://blastnet.github.io/で実証する。
関連論文リスト
- Compressing high-resolution data through latent representation encoding for downscaling large-scale AI weather forecast model [10.634513279883913]
本稿では,高解像度データセットの圧縮に適した変分オートエンコーダフレームワークを提案する。
本フレームワークは,HRCLDASデータの3年間の保存容量を8.61TBから204GBに削減し,必須情報を保存した。
論文 参考訳(メタデータ) (2024-10-10T05:38:03Z) - NeurLZ: On Enhancing Lossy Compression Performance based on Error-Controlled Neural Learning for Scientific Data [35.36879818366783]
大規模科学シミュレーションは、ストレージとI/Oに挑戦する巨大なデータセットを生成する。
我々は、科学データのための新しいクロスフィールド学習およびエラー制御圧縮フレームワークNeurLZを提案する。
論文 参考訳(メタデータ) (2024-09-09T16:48:09Z) - Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Generative Expansion of Small Datasets: An Expansive Graph Approach [13.053285552524052]
最小限のサンプルから大規模で情報豊富なデータセットを生成する拡張合成モデルを提案する。
自己アテンション層と最適なトランスポートを持つオートエンコーダは、分散一貫性を洗練させる。
結果は同等のパフォーマンスを示し、モデルがトレーニングデータを効果的に増強する可能性を示している。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - Computationally and Memory-Efficient Robust Predictive Analytics Using Big Data [0.0]
本研究では、データ不確実性、ストレージ制限、ビッグデータを用いた予測データ駆動モデリングの課題をナビゲートする。
本稿では,ロバスト主成分分析(RPCA)を有効ノイズ低減と外乱除去に利用し,最適センサ配置(OSP)を効率的なデータ圧縮・記憶に活用する。
論文 参考訳(メタデータ) (2024-03-27T22:39:08Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Deep Generative Modeling-based Data Augmentation with Demonstration
using the BFBT Benchmark Void Fraction Datasets [3.341975883864341]
本稿では、画像データ生成に広く用いられている深部生成モデル(DGM)の科学的データ拡張への応用について検討する。
トレーニングが完了すると、DGMはトレーニングデータに類似した合成データを生成し、データセットのサイズを大幅に拡大するために使用することができる。
論文 参考訳(メタデータ) (2023-08-19T22:19:41Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。