論文の概要: RealBench: Benchmarking Data-Driven Numerical Weather Forecasting Under Operational Conditions and Extreme Event Challenges
- arxiv url: http://arxiv.org/abs/2605.24945v1
- Date: Sun, 24 May 2026 08:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.530934
- Title: RealBench: Benchmarking Data-Driven Numerical Weather Forecasting Under Operational Conditions and Extreme Event Challenges
- Title(参考訳): RealBench: 運用条件下でのデータ駆動型数値気象予測のベンチマークと極端なイベントチャレンジ
- Authors: Ruize Li, Zhibin Wen, Tao Han, Hao Chen, Fenghua Ling, Wei Zhang, Song Guo, Lei Bai,
- Abstract要約: 本稿では,AI天気予報のための次世代ベンチマークであるRealBenchを紹介する。
RealBenchは、データ漏洩をなくし、最近の大気環境を捉えるために、2025年ごろに展開された、厳密にアウト・オブ・ディストリビューションテストのセットを特徴としている。
ローレイテンシな運用分析や,10,000以上のステーションで構成される大規模グローバルなその場観測データセットなど,複数のデータソースを統合している。
- 参考スコア(独自算出の注目度): 31.389267895745252
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate evaluation of weather forecasting models is critical for their reliable deployment in real-world applications. However, existing benchmarks predominantly rely on reanalysis products such as ERA5, which are generated through delayed data assimilation and do not reflect the constraints of real-time operational forecasting, thereby resulting in a systematic mismatch between benchmark performance and real-world forecasting. In this work, we introduce RealBench, a next-generation benchmark for AI weather forecasting that emphasizes realistic evaluation under operational conditions. RealBench features a strictly out-of-distribution test set spanning 2025 to eliminate data leakage and capture recent atmospheric regimes. It integrates multiple data sources, including low-latency operational analysis and a large-scale global in-situ observation dataset comprising over 10,000 stations, enabling direct evaluation against real atmospheric measurements. Beyond standard global metrics, RealBench provides a comprehensive evaluation framework for high-impact extreme events, including heatwaves, cold surges, and tropical cyclones, using event-specific metrics that better reflect real-world forecasting priorities. The evaluation results reveal substantial discrepancies between reanalysis-based metrics and real-world performance, particularly concerning extreme events. By highlighting the limitations of existing benchmarks, this work establishes a more faithful and operationally relevant evaluation paradigm, providing a rigorous foundation for advancing next-generation AI weather forecasting systems. The benchmark implementation is available at: https://github.com/lixruize-del/NWP-Benchmark.
- Abstract(参考訳): 天気予報モデルの正確な評価は、現実のアプリケーションにおける信頼性の高い展開に不可欠である。
しかし、既存のベンチマークは主に、遅延データ同化によって生成されるERA5のような再解析製品に依存しており、リアルタイムの運用予測の制約を反映していないため、ベンチマーク性能と実世界の予測との間に体系的なミスマッチが生じている。
本稿では,AI天気予報のための次世代ベンチマークであるRealBenchを紹介する。
RealBenchは、データ漏洩をなくし、最近の大気環境を捉えるために、2025年ごろに展開された、厳密にアウト・オブ・ディストリビューションテストのセットを特徴としている。
低レイテンシな運用分析や,10,000以上の局からなる大規模グローバルなその場観測データセットなど,複数のデータソースを統合し,実際の大気測定に対する直接的な評価を可能にしている。
標準的なグローバルメトリクス以外にも、RealBenchは、ヒートウェーブ、コールドサージ、熱帯サイクロンを含む、インパクトの高い極端なイベントに対する包括的な評価フレームワークを提供する。
評価結果は、特に極端な事象に関して、再分析に基づくメトリクスと実世界のパフォーマンスの相当な相違を明らかにした。
既存のベンチマークの限界を強調することで、この研究はより忠実で運用上関連する評価パラダイムを確立し、次世代AI天気予報システムを前進させるための厳格な基盤を提供する。
ベンチマーク実装は、https://github.com/lixruize-del/NWP-Benchmarkで利用可能である。
関連論文リスト
- AirQualityBench: A Realistic Evaluation Benchmark for Global Air Quality Forecasting [25.500339307707225]
本稿では,現実的な条件下での予測モデルを評価するために,グローバルな多汚染ベンチマークであるStarbfAirQualityBenchを紹介する。
このベンチマークには、2021年から2025年にかけての3,720の観測所からの時限観測が含まれ、6つの主要な汚染物質をカバーし、プロバイダネイティブな観測マスクを保存している。
AirQualityBenchは、サニタイズされたデータセットの強いパフォーマンスが、グローバルな断片化された監視ストリームに確実に転送されないことを示している。
論文 参考訳(メタデータ) (2026-05-07T08:25:43Z) - TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems [52.91956121737963]
我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。
本稿では,反復的検証ループを用いて,数値的に基底となる推論トレースを合成するマルチエージェント・フレームワークを提案する。
評価は,この推論が因果的に有効であること,評価に有用であること,生成したトレースでLSMを誘導することにより,予測精度が大幅に向上することを確認した。
論文 参考訳(メタデータ) (2026-04-07T03:04:45Z) - FuXiWeather2: Learning accurate atmospheric state estimation for operational global weather forecasting [15.10103712842682]
本稿では、同化と予測のための統合エンドツーエンドニューラルネットワークフレームワークFuXiWeather2を提案する。
FuXiWeather2は、高解像度(0.25円)のグローバル分析フィールドと10日間の予測を数分で生成する。
これらの高品質な分析フィールドは、評価指標の91%において、HRESシステムのスキルを超える決定論的予測を駆動する。
論文 参考訳(メタデータ) (2026-03-16T14:36:47Z) - How far are today's time-series models from real-world weather forecasting applications? [22.68937280154092]
WEATHER-5Kは、現実世界のシナリオをよりよく反映した観測気象データの包括的収集である。
これにより、モデルのより良いトレーニングと、TSFモデルの現実の予測能力のより正確な評価が可能になる。
我々は,学術的TSFモデルと実世界の天気予報アプリケーションとのギャップを,研究者に明確に評価する。
論文 参考訳(メタデータ) (2024-06-20T15:18:52Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - FengWu-GHR: Learning the Kilometer-scale Medium-range Global Weather
Forecasting [56.73502043159699]
この研究は、データ駆動型世界天気予報モデルであるFengWu-GHRを、0.09$circ$水平解像度で実行した。
低解像度モデルから事前知識を継承することにより、MLベースの高解像度予測を操作するための扉を開く新しいアプローチを導入する。
2022年の天気予報は、FengWu-GHRがIFS-HRESよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-01-28T13:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。