Fugu-MT 論文翻訳(概要): Exploring the design space of deep-learning-based weather forecasting systems

論文の概要: Exploring the design space of deep-learning-based weather forecasting systems

arxiv url: http://arxiv.org/abs/2410.07472v1
Date: Wed, 9 Oct 2024 22:25:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 16:56:23.224928
Title: Exploring the design space of deep-learning-based weather forecasting systems
Title（参考訳）: 深層学習に基づく天気予報システムの設計空間の探索
Authors: Shoaib Ahmed Siddiqui, Jean Kossaifi, Boris Bonev, Christopher Choy, Jan Kautz, David Krueger, Kamyar Azizzadenesheli,
Abstract要約: 本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。 UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
参考スコア（独自算出の注目度）: 56.129148006412855
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite tremendous progress in developing deep-learning-based weather forecasting systems, their design space, including the impact of different design choices, is yet to be well understood. This paper aims to fill this knowledge gap by systematically analyzing these choices including architecture, problem formulation, pretraining scheme, use of image-based pretrained models, loss functions, noise injection, multi-step inputs, additional static masks, multi-step finetuning (including larger stride models), as well as training on a larger dataset. We study fixed-grid architectures such as UNet, fully convolutional architectures, and transformer-based models, along with grid-invariant architectures, including graph-based and operator-based models. Our results show that fixed-grid architectures outperform grid-invariant architectures, indicating a need for further architectural developments in grid-invariant models such as neural operators. We therefore propose a hybrid system that combines the strong performance of fixed-grid models with the flexibility of grid-invariant architectures. We further show that multi-step fine-tuning is essential for most deep-learning models to work well in practice, which has been a common practice in the past. Pretraining objectives degrade performance in comparison to supervised training, while image-based pretrained models provide useful inductive biases in some cases in comparison to training the model from scratch. Interestingly, we see a strong positive effect of using a larger dataset when training a smaller model as compared to training on a smaller dataset for longer. Larger models, on the other hand, primarily benefit from just an increase in the computational budget. We believe that these results will aid in the design of better weather forecasting systems in the future.
Abstract（参考訳）: 深層学習に基づく天気予報システムの開発において、大きな進歩があったにもかかわらず、そのデザイン空間は、異なる設計選択の影響を含め、まだよく理解されていない。本稿では、アーキテクチャ、問題定式化、事前学習方式、画像ベース事前学習モデルの使用、損失関数、ノイズ注入、マルチステップ入力、追加の静的マスク、マルチステップ微調整(より大きなストライドモデルを含む)、およびより大きなデータセットのトレーニングを含むこれらの選択を体系的に分析することによって、この知識ギャップを埋めることを目的とする。グラフベースおよび演算子ベースモデルを含むグリッド不変アーキテクチャとともに、UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。この結果から, ニューラルネットワークなどのグリッド不変モデルにおいて, グリッド不変アーキテクチャはグリッド不変アーキテクチャよりも優れており, さらなるアーキテクチャ開発の必要性が示唆された。そこで我々は,固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。さらに、多くのディープラーニングモデルが実践的にうまく機能するためには、マルチステップの微調整が不可欠であることを示す。事前学習の目的は、教師付きトレーニングと比較して性能が低下する一方、画像ベースの事前学習モデルは、スクラッチからモデルをトレーニングするよりも、いくつかのケースにおいて有益な帰納的バイアスをもたらす。興味深いことに、より小さなデータセットでのトレーニングと比較して、より小さなモデルをトレーニングする際に、より大きなデータセットを使用することによる強いポジティブな効果が見られます。一方、より大きなモデルは、主に計算予算の増加の恩恵を受ける。これらの結果は、将来の天気予報システムの設計に役立つと信じている。

関連論文リスト

Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions [65.89403417819764]
設計選択が言語モデル能力に与える影響を定量化する。モデルサイズとトレーニングトークンの数以外の機能を組み込むことで、下流のパフォーマンスを予測する能力が3～28%向上する。
論文参考訳（メタデータ） (2025-03-05T19:46:04Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文参考訳（メタデータ） (2024-07-17T11:17:20Z)
SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。 SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文参考訳（メタデータ） (2023-09-01T05:12:25Z)
Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2022-12-09T03:58:22Z)
RLFlow: Optimising Neural Network Subgraph Transformation with World Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文参考訳（メタデータ） (2022-05-03T11:52:54Z)
An Intelligent End-to-End Neural Architecture Search Framework for Electricity Forecasting Model Development [4.940941112226529]
本稿では、時系列電気予測モデルの開発のためのインテリジェント自動アーキテクチャサーチ(IAAS)フレームワークを提案する。提案フレームワークは,ネットワーク機能保存変換操作,強化学習(RL)に基づくネットワーク変換制御,ネットワークスクリーニングの3つの主要コンポーネントを含む。提案したIAASフレームワークは,精度と安定性の予測において,既存の10のモデルや手法を著しく上回っていることを実証する。
論文参考訳（メタデータ） (2022-03-25T10:36:27Z)
Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文参考訳（メタデータ） (2021-12-15T20:09:20Z)
AdaXpert: Adapting Neural Architecture for Growing Data [63.30393509048505]
実世界のアプリケーションでは、データボリュームとクラス数が動的に増加する可能性があるため、データが増大することが多い。データボリュームの増加やクラスの数を考えると、期待できるパフォーマンスを得るためには、ニューラルネットワークのキャパシティを瞬時に調整する必要がある。既存のメソッドは、データの増大する性質を無視したり、特定のデータセットの最適なアーキテクチャを独立して検索しようとする。
論文参考訳（メタデータ） (2021-07-01T07:22:05Z)
Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。 ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文参考訳（メタデータ） (2021-06-07T11:13:05Z)
The Untapped Potential of Off-the-Shelf Convolutional Neural Networks [29.205446247063673]
ResNet-50のような既存の市販モデルは、ImageNet上で95%以上の精度を持つことを示す。このレベルのパフォーマンスは現在、20倍以上のパラメータとはるかに複雑なトレーニング手順を持つモデルを上回る。
論文参考訳（メタデータ） (2021-03-17T20:04:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。