論文の概要: Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction
- arxiv url: http://arxiv.org/abs/2404.19630v1
- Date: Tue, 30 Apr 2024 15:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:46:04.935211
- Title: Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction
- Title(参考訳): 大規模変圧器による気象予報のための学習レシピの分析と探索
- Authors: Jared D. Willard, Peter Harrington, Shashank Subramanian, Ankur Mahesh, Travis A. O'Brien, William D. Collins,
- Abstract要約: 比較的オフ・ザ・シェルフアーキテクチャ、簡単な訓練手順、適度な計算予算でも高い予測能力が得られることを示す。
具体的には、ERA5データに基づいて最小修正SwinV2変換器をトレーニングし、IFSと比較すると優れた予測技術が得られることを確かめる。
- 参考スコア(独自算出の注目度): 1.3194391758295114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of deep learning (DL) in numerical weather prediction (NWP) has led to a proliferation of models which forecast atmospheric variables with comparable or superior skill than traditional physics-based NWP. However, among these leading DL models, there is a wide variance in both the training settings and architecture used. Further, the lack of thorough ablation studies makes it hard to discern which components are most critical to success. In this work, we show that it is possible to attain high forecast skill even with relatively off-the-shelf architectures, simple training procedures, and moderate compute budgets. Specifically, we train a minimally modified SwinV2 transformer on ERA5 data, and find that it attains superior forecast skill when compared against IFS. We present some ablations on key aspects of the training pipeline, exploring different loss functions, model sizes and depths, and multi-step fine-tuning to investigate their effect. We also examine the model performance with metrics beyond the typical ACC and RMSE, and investigate how the performance scales with model size.
- Abstract(参考訳): 数値天気予報(NWP)における深層学習(DL)の急速な増加は、従来の物理学に基づくNWPと比較して、大気変数を同等または優れた技術で予測するモデルの普及につながった。
しかし、これらの主要なDLモデルのうち、使用されるトレーニング設定とアーキテクチャの両方に幅広い違いがある。
さらに、徹底的なアブレーション研究が欠如しているため、どのコンポーネントが成功に最も重要かを特定することは困難である。
本研究では,比較的市販のアーキテクチャ,簡単な訓練手順,適度な計算予算を伴っても高い予測能力が得られることを示す。
具体的には、ERA5データに基づいて最小修正SwinV2変換器をトレーニングし、IFSと比較すると優れた予測技術が得られることを確かめる。
トレーニングパイプラインの重要な側面について,さまざまな損失関数,モデルサイズと深さを探索し,その効果を調べるために多段階の微調整を行う。
また、典型的なACCやRMSE以上のメトリクスを用いてモデル性能を検証し、モデルサイズによるパフォーマンスのスケールについて検討する。
関連論文リスト
- Prithvi WxC: Foundation Model for Weather and Climate [2.9230020115516253]
Prithvi WxCは、Modern-Era Retrospective Analysis for Research and Applications, Version 2 (MERRA-2)から160変数を用いて開発された23億のパラメータ基盤モデルである。
このモデルは、異なる位相の気象現象を微細な解像度でモデル化するために、大きなトークン数に対応できるように設計されている。
本稿では, 自動回帰ロールアウト予測, ダウンスケーリング, 重力波フラックスパラメータ化, エクストリームイベント推定など, 課題のある下流タスクのセットでモデルを検証する。
論文 参考訳(メタデータ) (2024-09-20T15:53:17Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をより微細なテンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
我々は、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - EWMoE: An effective model for global weather forecasting with mixture-of-experts [6.695845790670147]
本研究では,地球規模の天気予報に有効なモデルであるEWMoEを提案する。
本モデルは,3次元絶対位置埋め込み,Mixture-of-Experts層,および2つの特定の損失関数の3つの重要な要素を組み込んで予測精度を向上させる。
論文 参考訳(メタデータ) (2024-05-09T16:42:13Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Inductive biases in deep learning models for weather prediction [17.061163980363492]
我々は、最先端のディープラーニングに基づく天気予報モデルの誘導バイアスをレビューし分析する。
我々は、最も重要な帰納バイアスを特定し、より効率的で確率的なDLWPモデルへの潜在的な道のりを明らかにする。
論文 参考訳(メタデータ) (2023-04-06T14:15:46Z) - Transfer Learning in Deep Learning Models for Building Load Forecasting:
Case of Limited Data [0.0]
本稿では,この問題を克服し,ディープラーニングモデルの性能を向上させるためのビルディング・ツー・ビルディング・トランスファー・ラーニング・フレームワークを提案する。
提案手法は,スクラッチからトレーニングを行う従来のディープラーニングと比較して,予測精度を56.8%向上させた。
論文 参考訳(メタデータ) (2023-01-25T16:05:47Z) - Deep learning for improved global precipitation in numerical weather
prediction systems [1.721029532201972]
我々は、残差学習を用いた深層畳み込みニューラルネットワークのUNETアーキテクチャを、グローバルな降水モデルを学ぶための概念実証として使用しています。
その結果,インド気象局が使用した操作力学モデルと比較した。
この研究は、残差学習に基づくUNETが、目標降水量と物理的関係を解き放つことができることを示す概念実証である。
論文 参考訳(メタデータ) (2021-06-20T05:10:42Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。