論文の概要: Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction
- arxiv url: http://arxiv.org/abs/2404.19630v1
- Date: Tue, 30 Apr 2024 15:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:46:04.935211
- Title: Analyzing and Exploring Training Recipes for Large-Scale Transformer-Based Weather Prediction
- Title(参考訳): 大規模変圧器による気象予報のための学習レシピの分析と探索
- Authors: Jared D. Willard, Peter Harrington, Shashank Subramanian, Ankur Mahesh, Travis A. O'Brien, William D. Collins,
- Abstract要約: 比較的オフ・ザ・シェルフアーキテクチャ、簡単な訓練手順、適度な計算予算でも高い予測能力が得られることを示す。
具体的には、ERA5データに基づいて最小修正SwinV2変換器をトレーニングし、IFSと比較すると優れた予測技術が得られることを確かめる。
- 参考スコア(独自算出の注目度): 1.3194391758295114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of deep learning (DL) in numerical weather prediction (NWP) has led to a proliferation of models which forecast atmospheric variables with comparable or superior skill than traditional physics-based NWP. However, among these leading DL models, there is a wide variance in both the training settings and architecture used. Further, the lack of thorough ablation studies makes it hard to discern which components are most critical to success. In this work, we show that it is possible to attain high forecast skill even with relatively off-the-shelf architectures, simple training procedures, and moderate compute budgets. Specifically, we train a minimally modified SwinV2 transformer on ERA5 data, and find that it attains superior forecast skill when compared against IFS. We present some ablations on key aspects of the training pipeline, exploring different loss functions, model sizes and depths, and multi-step fine-tuning to investigate their effect. We also examine the model performance with metrics beyond the typical ACC and RMSE, and investigate how the performance scales with model size.
- Abstract(参考訳): 数値天気予報(NWP)における深層学習(DL)の急速な増加は、従来の物理学に基づくNWPと比較して、大気変数を同等または優れた技術で予測するモデルの普及につながった。
しかし、これらの主要なDLモデルのうち、使用されるトレーニング設定とアーキテクチャの両方に幅広い違いがある。
さらに、徹底的なアブレーション研究が欠如しているため、どのコンポーネントが成功に最も重要かを特定することは困難である。
本研究では,比較的市販のアーキテクチャ,簡単な訓練手順,適度な計算予算を伴っても高い予測能力が得られることを示す。
具体的には、ERA5データに基づいて最小修正SwinV2変換器をトレーニングし、IFSと比較すると優れた予測技術が得られることを確かめる。
トレーニングパイプラインの重要な側面について,さまざまな損失関数,モデルサイズと深さを探索し,その効果を調べるために多段階の微調整を行う。
また、典型的なACCやRMSE以上のメトリクスを用いてモデル性能を検証し、モデルサイズによるパフォーマンスのスケールについて検討する。
関連論文リスト
- Comparing and Contrasting Deep Learning Weather Prediction Backbones on Navier-Stokes and Atmospheric Dynamics [41.00712556599439]
私たちは、最も顕著なディープラーニング天気予報モデルと背骨を比較し、対比します。
合成2次元非圧縮性ナビエストークスと実世界の気象動態を予測してこれを達成した。
本研究では,ConvLSTMとSwinTransformerの短距離・中距離予測への適用性を示した。
論文 参考訳(メタデータ) (2024-07-19T08:59:00Z) - Generalizing Weather Forecast to Fine-grained Temporal Scales via Physics-AI Hybrid Modeling [55.13352174687475]
本稿では,天気予報をより微細なテンポラルスケールに一般化する物理AIハイブリッドモデル(WeatherGFT)を提案する。
具体的には、小さな時間スケールで物理進化をシミュレートするために、慎重に設計されたPDEカーネルを用いる。
我々は、異なるリードタイムでのモデルの一般化を促進するためのリードタイムアウェアトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-22T16:21:02Z) - EWMoE: An effective model for global weather forecasting with mixture-of-experts [6.695845790670147]
本研究では,地球規模の天気予報に有効なモデルであるEWMoEを提案する。
本モデルでは,気象固有の埋め込み,Mixture-of-Experts層,および2つの特定の損失関数の3つの重要な要素を組み込んで予測精度を向上させる。
論文 参考訳(メタデータ) (2024-05-09T16:42:13Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [60.52921835351632]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,ExEnsembleという名称のトレーニングフリーな極値拡張戦略を導入し,画素値のばらつきを増大させ,予測ロバスト性を向上させる。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Inductive biases in deep learning models for weather prediction [17.061163980363492]
我々は、最先端のディープラーニングに基づく天気予報モデルの誘導バイアスをレビューし分析する。
我々は、最も重要な帰納バイアスを特定し、より効率的で確率的なDLWPモデルへの潜在的な道のりを明らかにする。
論文 参考訳(メタデータ) (2023-04-06T14:15:46Z) - Transfer Learning in Deep Learning Models for Building Load Forecasting:
Case of Limited Data [0.0]
本稿では,この問題を克服し,ディープラーニングモデルの性能を向上させるためのビルディング・ツー・ビルディング・トランスファー・ラーニング・フレームワークを提案する。
提案手法は,スクラッチからトレーニングを行う従来のディープラーニングと比較して,予測精度を56.8%向上させた。
論文 参考訳(メタデータ) (2023-01-25T16:05:47Z) - Deep learning for improved global precipitation in numerical weather
prediction systems [1.721029532201972]
我々は、残差学習を用いた深層畳み込みニューラルネットワークのUNETアーキテクチャを、グローバルな降水モデルを学ぶための概念実証として使用しています。
その結果,インド気象局が使用した操作力学モデルと比較した。
この研究は、残差学習に基づくUNETが、目標降水量と物理的関係を解き放つことができることを示す概念実証である。
論文 参考訳(メタデータ) (2021-06-20T05:10:42Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。