論文の概要: WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks
- arxiv url: http://arxiv.org/abs/2412.02780v1
- Date: Tue, 03 Dec 2024 19:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:37.884887
- Title: WxC-Bench: A Novel Dataset for Weather and Climate Downstream Tasks
- Title(参考訳): WxC-Bench: 気候と気候の下流タスクのための新しいデータセット
- Authors: Rajat Shinde, Christopher E. Phillips, Kumar Ankur, Aman Gupta, Simon Pfreundschuh, Sujit Roy, Sheyenne Kirkland, Vishal Gaur, Amy Lin, Aditi Sheshadri, Udaysankar Nair, Manil Maskey, Rahul Ramachandran,
- Abstract要約: 高品質な機械学習(ML)対応データセットは、新しい人工知能(AI)モデルの開発において基礎的な役割を果たす。
本稿では、一般化可能なAIモデルの開発を支援するために設計されたマルチモーダルデータセットであるWxC-Benchを紹介する。
本稿では,データセットの包括的記述と,ベースライン解析の技術的検証について述べる。
- 参考スコア(独自算出の注目度): 1.0369983700531806
- License:
- Abstract: High-quality machine learning (ML)-ready datasets play a foundational role in developing new artificial intelligence (AI) models or fine-tuning existing models for scientific applications such as weather and climate analysis. Unfortunately, despite the growing development of new deep learning models for weather and climate, there is a scarcity of curated, pre-processed machine learning (ML)-ready datasets. Curating such high-quality datasets for developing new models is challenging particularly because the modality of the input data varies significantly for different downstream tasks addressing different atmospheric scales (spatial and temporal). Here we introduce WxC-Bench (Weather and Climate Bench), a multi-modal dataset designed to support the development of generalizable AI models for downstream use-cases in weather and climate research. WxC-Bench is designed as a dataset of datasets for developing ML-models for a complex weather and climate system, addressing selected downstream tasks as machine learning phenomenon. WxC-Bench encompasses several atmospheric processes from meso-$\beta$ (20 - 200 km) scale to synoptic scales (2500 km), such as aviation turbulence, hurricane intensity and track monitoring, weather analog search, gravity wave parameterization, and natural language report generation. We provide a comprehensive description of the dataset and also present a technical validation for baseline analysis. The dataset and code to prepare the ML-ready data have been made publicly available on Hugging Face -- https://huggingface.co/datasets/nasa-impact/WxC-Bench
- Abstract(参考訳): 高品質の機械学習(ML)対応データセットは、新しい人工知能(AI)モデルの開発や、気象や気候分析などの科学的応用のための微調整済みのモデルの開発において、基礎的な役割を果たす。
残念ながら、気象と気候の新しいディープラーニングモデルの開発が進んでいるにもかかわらず、キュレートされた前処理機械学習(ML)対応データセットは不足している。
新たなモデルを開発するためにこのような高品質なデータセットを計算することは、特に、異なる大気スケール(空間と時間)に対処する異なる下流タスクにおいて、入力データのモダリティが著しく異なるため、難しい。
WxC-Bench(Weather and Climate Bench)は、気象・気候研究における下流ユースケースのための一般化可能なAIモデルの開発を支援するために設計されたマルチモーダルデータセットである。
WxC-Benchは、複雑な天候と気候システムのためのMLモデルを開発するデータセットのデータセットとして設計されており、選択した下流タスクを機械学習現象として扱う。
WxC-ベンチは、メソ・オベタ(20-200km)スケールから、航空機の乱流、ハリケーンの強度とトラックモニタリング、気象アナログ探索、重力波パラメータ化、自然言語のレポート生成など、2500kmまでの大気過程を包含している。
本稿では,データセットの包括的記述と,ベースライン解析の技術的検証について述べる。
ML対応データを作成するデータセットとコードは、Hugging Face -- https://huggingface.co/datasets/nasa-impact/WxC-Benchで公開されている。
関連論文リスト
- Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をより微細なテンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
我々は、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - ClimateSet: A Large-Scale Climate Model Dataset for Machine Learning [26.151056828513962]
気候モデルは、気候変動の影響を評価し、将来の気候シナリオをシミュレートするための鍵となっている。
機械学習(ML)コミュニティは、気候モデルエミュレーション、ダウンスケーリング、予測タスクといった様々なタスクにおける気候科学者の取り組みを支援することへの関心が高まっている。
ここでは、入力4MIPとCMIP6アーカイブから36の気候モデルの入力と出力を含むデータセットであるClimateSetを紹介する。
論文 参考訳(メタデータ) (2023-11-07T04:55:36Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Unleashing Realistic Air Quality Forecasting: Introducing the
Ready-to-Use PurpleAirSF Dataset [4.190243190157989]
本稿では,PurpleAirネットワークからの包括的かつ容易にアクセス可能なデータセットであるPurpleAirSFを紹介する。
本稿では、PurpleAirSFの構築に使用されるデータ収集および処理方法の詳細について述べる。
従来の予測モデルと現代の予測モデルの両方を用いて予備実験を行い、将来の大気質予測タスクのベンチマークを作成する。
論文 参考訳(メタデータ) (2023-06-24T12:10:16Z) - ClimaX: A foundation model for weather and climate [51.208269971019504]
ClimaXは気象と気候科学のディープラーニングモデルである。
気候データセットの自己教師型学習目標で事前トレーニングすることができる。
気候や気候の様々な問題に対処するために、微調整が可能である。
論文 参考訳(メタデータ) (2023-01-24T23:19:01Z) - Learning to Simulate Realistic LiDARs [66.7519667383175]
リアルLiDARセンサのデータ駆動シミュレーションのためのパイプラインを提案する。
本モデルでは, 透明表面上の落下点などの現実的な効果を符号化できることが示される。
我々は2つの異なるLiDARセンサのモデルを学習し、それに従ってシミュレーションされたLiDARデータを改善する。
論文 参考訳(メタデータ) (2022-09-22T13:12:54Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - SubseasonalClimateUSA: A Dataset for Subseasonal Forecasting and
Benchmarking [20.442879707675115]
SubseasonalClimateUSAは、米国におけるサブシーズン予測モデルのトレーニングとベンチマークのための、キュレートされたデータセットである。
このデータセットを使用して、操作力学モデル、古典的気象ベースライン、最先端の機械学習10、文献からのディープラーニングベースのメソッドなど、さまざまなモデルのスイートをベンチマークします。
論文 参考訳(メタデータ) (2021-09-21T18:42:10Z) - WeatherBench: A benchmark dataset for data-driven weather forecasting [17.76377510880905]
データ駆動型中距離天気予報のためのベンチマークデータセットを提案する。
機械学習モデルでの使用を容易にするために処理されたERA5アーカイブから得られたデータを提供する。
単純な線形回帰手法、ディープラーニングモデル、および純粋に物理的な予測モデルからベースラインスコアを提供する。
論文 参考訳(メタデータ) (2020-02-02T19:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。