論文の概要: CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer
- arxiv url: http://arxiv.org/abs/2405.03376v1
- Date: Mon, 6 May 2024 11:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:56:21.500504
- Title: CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer
- Title(参考訳): CRA5: 効率的な変圧器による可搬型気候・気象研究のためのERA5の極端圧縮
- Authors: Tao Han, zhenghao Chen, Song Guo, Wanghan Xu, Lei Bai,
- Abstract要約: 気候データを極端に圧縮するために,効率的なニューラルネットワークである変分オートエンコーダ変換器(VAEformer)を導入する。
VAEformerは、気候データにおける既存の最先端圧縮手法よりも優れています。
実験により、CRA5データセットでトレーニングされた地球規模の天気予報モデルが、元のデータセットでトレーニングされたモデルに匹敵する予測精度を達成することが示された。
- 参考スコア(独自算出の注目度): 22.68937280154092
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advent of data-driven weather forecasting models, which learn from hundreds of terabytes (TB) of reanalysis data, has significantly advanced forecasting capabilities. However, the substantial costs associated with data storage and transmission present a major challenge for data providers and users, affecting resource-constrained researchers and limiting their accessibility to participate in AI-based meteorological research. To mitigate this issue, we introduce an efficient neural codec, the Variational Autoencoder Transformer (VAEformer), for extreme compression of climate data to significantly reduce data storage cost, making AI-based meteorological research portable to researchers. Our approach diverges from recent complex neural codecs by utilizing a low-complexity Auto-Encoder transformer. This encoder produces a quantized latent representation through variance inference, which reparameterizes the latent space as a Gaussian distribution. This method improves the estimation of distributions for cross-entropy coding. Extensive experiments demonstrate that our VAEformer outperforms existing state-of-the-art compression methods in the context of climate data. By applying our VAEformer, we compressed the most popular ERA5 climate dataset (226 TB) into a new dataset, CRA5 (0.7 TB). This translates to a compression ratio of over 300 while retaining the dataset's utility for accurate scientific analysis. Further, downstream experiments show that global weather forecasting models trained on the compact CRA5 dataset achieve forecasting accuracy comparable to the model trained on the original dataset. Code, the CRA5 dataset, and the pre-trained model are available at https://github.com/taohan10200/CRA5.
- Abstract(参考訳): データ駆動型天気予報モデルの出現は、数百テラバイト(TB)のリアナリシスデータから学習し、かなり高度な予報能力を持っている。
しかし、データストレージと送信に関連するかなりのコストは、データプロバイダとユーザにとって大きな課題となり、リソース制約のある研究者に影響を与え、AIベースの気象研究に参加するためのアクセシビリティを制限する。
この問題を軽減するため、気候データの極端な圧縮のための効率的なニューラルコーデックであるVAEformerを導入し、データ保存コストを大幅に削減し、AIベースの気象研究を研究者にポータブルにする。
提案手法は,低複雑性オートエンコーダ変換器を用いて,近年の複雑なニューラルコーデックから分岐する。
このエンコーダは分散推論を通じて量子化された潜在表現を生成し、これは潜在空間をガウス分布として再パラメータ化する。
この方法は、クロスエントロピー符号化のための分布推定を改善する。
我々のVAEformerは、気候データの文脈において、既存の最先端の圧縮方法よりも優れています。
VAEformerを適用することで、最も人気のあるERA5気候データセット(226 TB)を新しいデータセットCRA5(0.7 TB)に圧縮しました。
これは、正確な科学的分析のためにデータセットの有用性を維持しながら、300以上の圧縮比に変換される。
さらに、下流実験では、コンパクトなCRA5データセットでトレーニングされた地球規模の天気予報モデルが、元のデータセットでトレーニングされたモデルに匹敵する予測精度を達成することが示されている。
コード、CRA5データセット、事前トレーニングされたモデルはhttps://github.com/taohan10200/CRA5.comで入手できる。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Variable Rate Neural Compression for Sparse Detector Data [9.331686712558144]
本稿では,スパース畳み込みによるキーポイント識別によるTPCデータ圧縮手法を提案する。
BCAE-VSは、以前の最先端モデルよりも圧縮率を10%高め、再構築精度を75%高めている。
論文 参考訳(メタデータ) (2024-11-18T17:15:35Z) - An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Compressing high-resolution data through latent representation encoding for downscaling large-scale AI weather forecast model [10.634513279883913]
本稿では,高解像度データセットの圧縮に適した変分オートエンコーダフレームワークを提案する。
本フレームワークは,HRCLDASデータの3年間の保存容量を8.61TBから204GBに削減し,必須情報を保存した。
論文 参考訳(メタデータ) (2024-10-10T05:38:03Z) - DIRESA, a distance-preserving nonlinear dimension reduction technique based on regularized autoencoders [0.0]
気象学では、過去のデータセットで類似した気象パターンやアナログを見つけることは、データの同化、予測、後処理に有用である。
気候科学において、歴史的および気候予測データのアナログは帰属研究や影響研究に使用される。
本稿では,オートエンコーダ(AE)ニューラルネットワークを用いた次元削減手法を提案し,これらのデータセットを圧縮し,解釈可能な圧縮潜在空間で探索を行う。
論文 参考訳(メタデータ) (2024-04-28T20:54:57Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Long-term drought prediction using deep neural networks based on geospatial weather data [75.38539438000072]
農業計画や保険には1年前から予測される高品質の干ばつが不可欠だ。
私たちは、体系的なエンドツーエンドアプローチを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組みます。
主な発見は、TransformerモデルであるEarthFormerが、正確な短期(最大6ヶ月)の予測を行う際の例外的なパフォーマンスである。
論文 参考訳(メタデータ) (2023-09-12T13:28:06Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - ClimaX: A foundation model for weather and climate [51.208269971019504]
ClimaXは気象と気候科学のディープラーニングモデルである。
気候データセットの自己教師型学習目標で事前トレーニングすることができる。
気候や気候の様々な問題に対処するために、微調整が可能である。
論文 参考訳(メタデータ) (2023-01-24T23:19:01Z) - Towards Data-Efficient Detection Transformers [77.43470797296906]
我々は、ほとんどの検出トランスフォーマーが、小さなデータセットで大きなパフォーマンス低下に悩まされていることを示す。
我々はデータ効率に影響を与える要因を、データ効率のRCNNから代表DETRへのステップバイステップ遷移によって実証的に分析する。
本稿では,よりリッチな監視とデータ効率向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:56:34Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。