論文の概要: ORBIT-2: Scaling Exascale Vision Foundation Models for Weather and Climate Downscaling
- arxiv url: http://arxiv.org/abs/2505.04802v1
- Date: Wed, 07 May 2025 21:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.679152
- Title: ORBIT-2: Scaling Exascale Vision Foundation Models for Weather and Climate Downscaling
- Title(参考訳): ORBIT-2:気象・気候ダウンスケーリングのための大規模ビジョン基礎モデルのスケーリング
- Authors: Xiao Wang, Jong-Youl Choi, Takuya Kurihaya, Isaac Lyngaas, Hong-Jun Yoon, Ming Fan, Nasik Muhammad Nafi, Aristeidis Tsaris, Ashwin M. Aji, Maliha Hossain, Mohamed Wahib, Dali Wang, Peter Thornton, Prasanna Balaprakash, Moetasim Ashfaq, Dan Lu,
- Abstract要約: ORBIT-2は、超高分解能気候下降のためのスケーラブルな基礎モデルである。
Residual Slim ViT (Reslim) とタイルワイドシーケンススケーリングアルゴリズム TILES の2つの重要なイノベーションが組み込まれている。
0.9kmまでのダウンスケーリングをサポートし、最大420億個のトークンを処理している。
- 参考スコア(独自算出の注目度): 9.752573939068041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse observations and coarse-resolution climate models limit effective regional decision-making, underscoring the need for robust downscaling. However, existing AI methods struggle with generalization across variables and geographies and are constrained by the quadratic complexity of Vision Transformer (ViT) self-attention. We introduce ORBIT-2, a scalable foundation model for global, hyper-resolution climate downscaling. ORBIT-2 incorporates two key innovations: (1) Residual Slim ViT (Reslim), a lightweight architecture with residual learning and Bayesian regularization for efficient, robust prediction; and (2) TILES, a tile-wise sequence scaling algorithm that reduces self-attention complexity from quadratic to linear, enabling long-sequence processing and massive parallelism. ORBIT-2 scales to 10 billion parameters across 32,768 GPUs, achieving up to 1.8 ExaFLOPS sustained throughput and 92-98% strong scaling efficiency. It supports downscaling to 0.9 km global resolution and processes sequences up to 4.2 billion tokens. On 7 km resolution benchmarks, ORBIT-2 achieves high accuracy with R^2 scores in the range of 0.98 to 0.99 against observation data.
- Abstract(参考訳): スパース観測と粗大な気候モデルは効果的な地域決定を制限し、ロバストなダウンスケーリングの必要性を強調している。
しかし、既存のAI手法は変数や地理をまたいだ一般化に苦慮しており、視覚変換器(ViT)の2次複雑さに制約されている。
我々は,グローバルで高解像度な気候ダウンスケーリングのためのスケーラブルな基礎モデルであるORBIT-2を紹介する。
ORBIT-2は,(1)残差学習とベイズ正規化による効率・堅牢な予測のための軽量アーキテクチャであるResidual Slim ViT (Reslim) ,(2)時間列処理と大規模並列処理を実現するタイルワイドシーケンススケーリングアルゴリズムであるTILESの2つの重要なイノベーションを取り入れている。
ORBIT-2は32,768GPUで100億のパラメータにスケールし、1.8 ExaFLOPSまでのスループットと92-98%のスケーリング効率を実現している。
0.9kmまでのダウンスケーリングをサポートし、最大420億個のトークンを処理している。
7kmの解像度のベンチマークでは、ORBIT-2は観測データに対して0.98から0.99の範囲のR^2スコアで高い精度を達成する。
関連論文リスト
- Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.2999888908665658]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。
我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。
NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文 参考訳(メタデータ) (2024-12-10T19:00:01Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。