論文の概要: Compressing high-resolution data through latent representation encoding for downscaling large-scale AI weather forecast model
- arxiv url: http://arxiv.org/abs/2410.09109v1
- Date: Thu, 10 Oct 2024 05:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 16:38:28.642480
- Title: Compressing high-resolution data through latent representation encoding for downscaling large-scale AI weather forecast model
- Title(参考訳): 大規模AI天気予報モデルにおける遅延表現符号化による高分解能データの圧縮
- Authors: Qian Liu, Bing Gong, Xiaoran Zhuang, Xiaohui Zhong, Zhiming Kang, Hao Li,
- Abstract要約: 本稿では,高解像度データセットの圧縮に適した変分オートエンコーダフレームワークを提案する。
本フレームワークは,HRCLDASデータの3年間の保存容量を8.61TBから204GBに削減し,必須情報を保存した。
- 参考スコア(独自算出の注目度): 10.634513279883913
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid advancement of artificial intelligence (AI) in weather research has been driven by the ability to learn from large, high-dimensional datasets. However, this progress also poses significant challenges, particularly regarding the substantial costs associated with processing extensive data and the limitations of computational resources. Inspired by the Neural Image Compression (NIC) task in computer vision, this study seeks to compress weather data to address these challenges and enhance the efficiency of downstream applications. Specifically, we propose a variational autoencoder (VAE) framework tailored for compressing high-resolution datasets, specifically the High Resolution China Meteorological Administration Land Data Assimilation System (HRCLDAS) with a spatial resolution of 1 km. Our framework successfully reduced the storage size of 3 years of HRCLDAS data from 8.61 TB to just 204 GB, while preserving essential information. In addition, we demonstrated the utility of the compressed data through a downscaling task, where the model trained on the compressed dataset achieved accuracy comparable to that of the model trained on the original data. These results highlight the effectiveness and potential of the compressed data for future weather research.
- Abstract(参考訳): 気象研究における人工知能(AI)の急速な進歩は、大規模で高次元のデータセットから学ぶ能力によって引き起こされている。
しかし、この進歩は、特に広範囲なデータ処理と計算資源の制限に関連する相当なコストに関して、大きな課題を生じさせる。
コンピュータビジョンにおけるニューラルイメージ圧縮(NIC)タスクにインスパイアされた本研究では、これらの課題に対処するために気象データを圧縮し、下流アプリケーションの効率を高めることを目的とする。
具体的には,高分解能データセット,特に高分解能中国気象庁土地データ同化システム(HRCLDAS)を空間分解能1kmで圧縮するための可変オートエンコーダ(VAE)フレームワークを提案する。
本フレームワークは,HRCLDASデータの3年間の保存容量を8.61TBから204GBに削減し,必須情報を保存した。
さらに、圧縮データの有用性をダウンスケーリングタスクで実証し、圧縮データセットでトレーニングされたモデルが、元のデータでトレーニングされたモデルと同等の精度を達成した。
これらの結果は,将来の気象研究における圧縮データの有効性と可能性を明らかにするものである。
関連論文リスト
- Variable Rate Neural Compression for Sparse Detector Data [9.331686712558144]
本稿では,スパース畳み込みによるキーポイント識別によるTPCデータ圧縮手法を提案する。
BCAE-VSは、以前の最先端モデルよりも圧縮率を10%高め、再構築精度を75%高めている。
論文 参考訳(メタデータ) (2024-11-18T17:15:35Z) - Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Dynamic Data Pruning for Automatic Speech Recognition [58.95758272440217]
ASR(DDP-ASR)のダイナミック・データ・プルーニング(Dynamic Data Pruning for ASR)を導入し,音声関連データセットに特化して微細なプルーニングの粒度を提供する。
実験の結果,DDP-ASRは最大1.6倍のトレーニング時間を節約できることがわかった。
論文 参考訳(メタデータ) (2024-06-26T14:17:36Z) - CRA5: Extreme Compression of ERA5 for Portable Global Climate and Weather Research via an Efficient Variational Transformer [22.68937280154092]
気候データを極端に圧縮するために,効率的なニューラルネットワークである変分オートエンコーダ変換器(VAEformer)を導入する。
VAEformerは、気候データにおける既存の最先端圧縮手法よりも優れています。
実験により、CRA5データセットでトレーニングされた地球規模の天気予報モデルが、元のデータセットでトレーニングされたモデルに匹敵する予測精度を達成することが示された。
論文 参考訳(メタデータ) (2024-05-06T11:30:55Z) - Computationally and Memory-Efficient Robust Predictive Analytics Using Big Data [0.0]
本研究では、データ不確実性、ストレージ制限、ビッグデータを用いた予測データ駆動モデリングの課題をナビゲートする。
本稿では,ロバスト主成分分析(RPCA)を有効ノイズ低減と外乱除去に利用し,最適センサ配置(OSP)を効率的なデータ圧縮・記憶に活用する。
論文 参考訳(メタデータ) (2024-03-27T22:39:08Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - The Bearable Lightness of Big Data: Towards Massive Public Datasets in
Scientific Machine Learning [0.0]
損失のある圧縮アルゴリズムは、オープンソースのデータレポジトリに高忠実な科学データを公開するための現実的な経路を提供することを示す。
本稿では,ビッグデータフレームワークの構築に必要な要件を概説し,構築し,評価する。
論文 参考訳(メタデータ) (2022-07-25T21:44:53Z) - A Quick Review on Recent Trends in 3D Point Cloud Data Compression
Techniques and the Challenges of Direct Processing in 3D Compressed Domain [3.169089186688223]
オブジェクトの検出、追跡、セグメンテーションのための3Dポイントクラウドデータの自動処理は、AIとデータサイエンスの分野における最新のトレンド研究である。
3Dポイントクラウド(LiDAR)の形で作成されているデータの量は、非常に大きいです。
研究者たちは現在、生成した大量のデータを処理するために、新しいデータ圧縮アルゴリズムを発明しようとしている。
論文 参考訳(メタデータ) (2020-07-08T12:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。