論文の概要: Copula-based synthetic data generation for machine learning emulators in
weather and climate: application to a simple radiation model
- arxiv url: http://arxiv.org/abs/2012.09037v2
- Date: Tue, 5 Jan 2021 14:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 10:51:36.077656
- Title: Copula-based synthetic data generation for machine learning emulators in
weather and climate: application to a simple radiation model
- Title(参考訳): 気象・気候における機械学習エミュレータのためのcopulaに基づく合成データ生成:簡易放射モデルへの応用
- Authors: David Meyer, Thomas Nagler, Robin J. Hogan
- Abstract要約: 本研究では, 合成データセットを用いることで, 劣化する長波放射を推定するためのMLエミュレータの予測精度が向上するかどうかを検討する。
その結果、平均バイアス誤差(0.08から-0.02 W m$-2$)では最大75%、平均絶対誤差では最大62%のバルク誤差がカットされる。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can we improve machine learning (ML) emulators with synthetic data? The use
of real data for training ML models is often the cause of major limitations.
For example, real data may be (a) only representative of a subset of situations
and domains, (b) expensive to source, (c) limited to specific individuals due
to licensing restrictions. Although the use of synthetic data is becoming
increasingly popular in computer vision, the training of ML emulators in
weather and climate still relies on the use of real data datasets. Here we
investigate whether the use of copula-based synthetically-augmented datasets
improves the prediction of ML emulators for estimating the downwelling longwave
radiation. Results show that bulk errors are cut by up to 75 % for the mean
bias error (from 0.08 to -0.02 W m$^{-2}$) and by up to 62 % (from 1.17 to 0.44
W m$^{-2}$) for the mean absolute error, thus showing potential for improving
the generalization of future ML emulators.
- Abstract(参考訳): 合成データによる機械学習(ml)エミュレータの改善は可能か?
MLモデルをトレーニングするための実際のデータの使用は、しばしば大きな制限の原因である。
例えば、実データは(a)状況と領域のサブセットのみを表し、(b)ソースに高価であり、(c)ライセンスの制限により特定の個人に限定されている。
コンピュータビジョンでは合成データの利用がますます普及しているが、天候や気候におけるmlエミュレータのトレーニングは、まだ実際のデータデータセットの使用に依存している。
本稿では,コプラをベースとした合成合成データセットを用いることで,下降する長波放射を推定するためのMLエミュレータの予測が向上するかどうかを検討する。
その結果、バルク誤差は平均バイアス誤差(0.08から-0.02Wm$^{-2}$)で最大75%、平均絶対誤差(0.17から0.44Wm$^{-2}$)で最大62%削減され、将来のMLエミュレータの一般化の可能性が示された。
関連論文リスト
- Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - ClimART: A Benchmark Dataset for Emulating Atmospheric Radiative
Transfer in Weather and Climate Models [13.514499533538789]
我々はClimARTという大規模なデータセットを構築し、現在の、工業以前の、将来の気候条件から、カナダ地球系モデルに基づいて、Emph10万以上のサンプルを収集した。
ClimARTは、複数のアウト・オブ・ディストリビューションテストセット、基礎となるドメイン物理学、精度と推論速度のトレードオフなど、MLコミュニティにいくつかの方法論上の課題を提起している。
また、以前の作業で使用されるデータセットとネットワークアーキテクチャの欠点を示す新しいベースラインをいくつか提示する。
論文 参考訳(メタデータ) (2021-11-29T16:32:31Z) - Self-learning Emulators and Eigenvector Continuation [0.0]
我々は、自己学習エミュレーションと呼ばれる新しい機械学習アプローチを用いて、制約方程式のシステムを効率的に解くことに重点を置いている。
自己学習エミュレータ(セルフラーニングエミュレータ、英: self-learning emulator)は、ある種の制御パラメータにまたがる方程式のシステムを迅速に解くことができる能動的学習プロトコルである。
代数方程式、線形および非線形微分方程式、線形および非線形固有値問題の解系に対する自己学習エミュレータの今後の応用を想定する。
論文 参考訳(メタデータ) (2021-07-28T16:00:47Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Designing Accurate Emulators for Scientific Processes using
Calibration-Driven Deep Models [33.935755695805724]
Learn-by-Calibrating (LbC)は、科学応用においてエミュレータを設計するための新しいディープラーニングアプローチである。
また,LbCは広く適応された損失関数の選択に対して,一般化誤差を大幅に改善することを示した。
LbCは、小さなデータレギュレータでも高品質なエミュレータを実現し、さらに重要なことは、明確な事前条件なしで固有のノイズ構造を復元する。
論文 参考訳(メタデータ) (2020-05-05T16:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。