Fugu-MT 論文翻訳(概要): FourCastNeXt: Optimizing FourCastNet Training for Limited Compute

論文の概要: FourCastNeXt: Optimizing FourCastNet Training for Limited Compute

arxiv url: http://arxiv.org/abs/2401.05584v2
Date: Thu, 21 Mar 2024 00:42:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:17:37.221170
Title: FourCastNeXt: Optimizing FourCastNet Training for Limited Compute
Title（参考訳）: FourCastNeXt: 限定計算のためのFourCastNetトレーニングの最適化
Authors: Edison Guo, Maruf Ahmed, Yue Sun, Rui Yang, Harrison Cook, Tennessee Leeuwenburg, Ben Evans,
Abstract要約: FourCastNeXtは、グローバル機械学習天気予報モデルであるFourCastNetの最適化である。オリジナルのFourCastNetの計算要件の約5%を使ってトレーニングすることができる。
参考スコア（独自算出の注目度）: 12.230448940684012
License: http://creativecommons.org/licenses/by/4.0/
Abstract: FourCastNeXt is an optimization of FourCastNet - a global machine learning weather forecasting model - that performs with a comparable level of accuracy and can be trained using around 5% of the original FourCastNet computational requirements. This technical report presents strategies for model optimization that maintain similar performance as measured by the root-mean-square error (RMSE) of the modelled variables. By providing a model with very low comparative training costs, FourCastNeXt makes Neural Earth System Modelling much more accessible to researchers looking to conduct training experiments and ablation studies. FourCastNeXt training and inference code are available at https://github.com/nci/FourCastNeXt
Abstract（参考訳）: FourCastNeXtは、グローバルな機械学習天気予報モデルであるFourCastNetの最適化である。本技術報告では、モデル変数のルート平均二乗誤差(RMSE)によって測定された同様の性能を維持するモデル最適化戦略について述べる。比較トレーニングコストの非常に低いモデルを提供することで、FourCastNeXtは、トレーニング実験やアブレーション研究の実施を目指す研究者にとって、Neural Earth System Modellingをより使いやすくする。 FourCastNeXtのトレーニングと推論コードはhttps://github.com/nci/FourCastNeXtで公開されている。

関連論文リスト

FourCastNet 3: A geometric approach to probabilistic machine-learning weather forecasting at scale [91.84761739154366]
FourCastNet 3は、確率的アンサンブル予測にスケーラブルで幾何学的な機械学習(ML)アプローチを実装することで、グローバルな気象モデリングを推進している。 FourCastNet 3は、従来のアンサンブルモデルを上回る予測精度を提供し、最良の拡散ベースのメソッドに匹敵する。その計算効率、中距離確率的スキル、スペクトルの忠実度、およびサブシーズンタイムスケールでのロールアウト安定性は、大規模なアンサンブル予測を通じて気象予知と早期警報システムを改善するための強力な候補となる。
論文参考訳（メタデータ） (2025-07-16T11:22:18Z)
Democracy of AI Numerical Weather Models: An Example of Global Forecasting with FourCastNetv2 Made by a University Research Lab Using GPU [2.5691313188496996]
本稿では,大学研究グループ間でAIによる世界天気予報モデルの民主化の可能性を示す。グラフィックス処理ユニット(GPU)とNVIDIAのFourCastNetv2のような無償のAIモデルを活用しています。 i)FourCastNetv2を活用して、指定されたアプリケーションプログラミングインターフェース(API)を介して予測を作成すること、(ii)NVIDIAハードウェアを使用して、オリジナルのFourCastNetモデルをトレーニングすることの両方を実証する。
論文参考訳（メタデータ） (2025-04-23T18:15:31Z)
Training and Inference Efficiency of Encoder-Decoder Speech Models [25.031622057759492]
我々は効率角に焦点を合わせ、これらの音声モデルを効率的に訓練しているかどうかを問う。ミニバッチサンプリングにおける無視は、パディングに50%以上費やされていることを示す。モデルアーキテクチャを調整してデコーダからエンコーダにモデルパラメータを転送すると、3倍の推論速度が得られます。
論文参考訳（メタデータ） (2025-03-07T20:57:43Z)
Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8193940110293]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文参考訳（メタデータ） (2024-12-05T18:21:49Z)
Mamba4Cast: Efficient Zero-Shot Time Series Forecasting with State Space Models [38.162017417805885]
Mamba4Castは時系列予測のためのゼロショット基礎モデルである。データセット固有の微調整を必要とせずに、多様な時系列タスクを堅牢に一般化する。
論文参考訳（メタデータ） (2024-10-12T06:35:18Z)
Wrapper Boxes: Faithful Attribution of Model Predictions to Training Data [40.7542543934205]
ニューラルモデルを通常のように訓練し、学習した特徴表現を古典的解釈可能なモデルで使用して予測を行う「ラッパーボックス」パイプラインを提案する。異なる大きさの7つの言語モデルに対して、まず、ラッパー古典モデルの予測性能が元のニューラルモデルにほぼ匹敵することを示した。我々のパイプラインは、古典的なモデル決定をデータトレーニングに忠実に寄与しながら、ニューラルネットワークモデルの予測性能を保っている。
論文参考訳（メタデータ） (2023-11-15T01:50:53Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
LilNetX: Lightweight Networks with EXtreme Model Compression and Structured Sparsification [36.651329027209634]
LilNetXは、ニューラルネットワークのためのエンドツーエンドのトレーニング可能なテクニックである。特定の精度-レート-計算トレードオフを持つ学習モデルを可能にする。
論文参考訳（メタデータ） (2022-04-06T17:59:10Z)
Network Augmentation for Tiny Deep Learning [73.57192520534585]
ニューラルネットワークの性能向上のための新しいトレーニング手法であるNetAug(Net Aug)を紹介する。画像分類と物体検出におけるNetAugの有効性を示す。
論文参考訳（メタデータ） (2021-10-17T18:48:41Z)
Pareto-Optimal Quantized ResNet Is Mostly 4-bit [3.83996783171716]
我々はResNetをケーススタディとして、量子化が計算コスト品質トレードオフ曲線の推論に与える影響を調べる。その結果、bfloat16 ResNetの各モデルには、低コストで高精度な量子化モデルがあることが示唆された。我々は,4ビットResNet-50のImageNet上で,量子化を意識したトレーニングを行い,トップ1のeval精度77.09%を得た。
論文参考訳（メタデータ） (2021-05-07T23:28:37Z)
EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文参考訳（メタデータ） (2021-04-01T07:08:36Z)
It's the Best Only When It Fits You Most: Finding Related Models for Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文参考訳（メタデータ） (2020-10-13T22:52:13Z)
The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。 3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文参考訳（メタデータ） (2020-04-16T04:28:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。