論文の概要: ORBIT-2: Scaling Exascale Vision Foundation Models for Weather and Climate Downscaling
- arxiv url: http://arxiv.org/abs/2505.04802v2
- Date: Tue, 02 Sep 2025 03:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.329626
- Title: ORBIT-2: Scaling Exascale Vision Foundation Models for Weather and Climate Downscaling
- Title(参考訳): ORBIT-2:気象・気候ダウンスケーリングのための大規模ビジョン基礎モデルのスケーリング
- Authors: Xiao Wang, Jong-Youl Choi, Takuya Kurihaya, Isaac Lyngaas, Hong-Jun Yoon, Xi Xiao, David Pugmire, Ming Fan, Nasik M. Nafi, Aristeidis Tsaris, Ashwin M. Aji, Maliha Hossain, Mohamed Wahib, Dali Wang, Peter Thornton, Prasanna Balaprakash, Moetasim Ashfaq, Dan Lu,
- Abstract要約: ORBIT-2は、グローバルで高解像度の気候ダウンスケーリングのためのスケーラブルな基盤モデルである。
Residual Slim ViT (Reslim)は、残学習とベイズ正規化による効率的で堅牢な予測を備えた軽量アーキテクチャである。
TILESはタイル回りのシーケンススケーリングアルゴリズムであり、二次から線形への自己認識の複雑さを低減する。
- 参考スコア(独自算出の注目度): 15.369357830312914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse observations and coarse-resolution climate models limit effective regional decision-making, underscoring the need for robust downscaling. However, existing AI methods struggle with generalization across variables and geographies and are constrained by the quadratic complexity of Vision Transformer (ViT) self-attention. We introduce ORBIT-2, a scalable foundation model for global, hyper-resolution climate downscaling. ORBIT-2 incorporates two key innovations: (1) Residual Slim ViT (Reslim), a lightweight architecture with residual learning and Bayesian regularization for efficient, robust prediction; and (2) TILES, a tile-wise sequence scaling algorithm that reduces self-attention complexity from quadratic to linear, enabling long-sequence processing and massive parallelism. ORBIT-2 scales to 10 billion parameters across 65,536 GPUs, achieving up to 4.1 exaFLOPS sustained throughput and 74--98% strong scaling efficiency. It supports downscaling to 0.9 km global resolution and processes sequences up to 4.2 billion tokens. On 7 km resolution benchmarks, ORBIT-2 achieves high accuracy with $R^2$ scores in the range of 0.98--0.99 against observational data.
- Abstract(参考訳): スパース観測と粗大な気候モデルは効果的な地域決定を制限し、ロバストなダウンスケーリングの必要性を強調している。
しかし、既存のAI手法は変数や地理をまたいだ一般化に苦慮しており、視覚変換器(ViT)の2次複雑さに制約されている。
我々は,グローバルで高解像度な気候ダウンスケーリングのためのスケーラブルな基礎モデルであるORBIT-2を紹介する。
ORBIT-2は,(1)残差学習とベイズ正規化による効率・堅牢な予測のための軽量アーキテクチャであるResidual Slim ViT (Reslim) ,(2)時間列処理と大規模並列処理を実現するタイルワイドシーケンススケーリングアルゴリズムであるTILESの2つの重要なイノベーションを取り入れている。
ORBIT-2は65,536GPUで100億のパラメータにスケールし、スループットは4.1 exaFLOPS、スケーリング効率は74-98%まで向上した。
0.9kmまでのダウンスケーリングをサポートし、最大420億個のトークンを処理している。
7kmの解像度のベンチマークでは、ORBIT-2は観測データに対して0.98-0.99の精度でR^2$のスコアを得る。
関連論文リスト
- How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Energy Scaling Laws for Diffusion Models: Quantifying Compute and Carbon Emissions in Image Generation [50.21021246855702]
本稿では,計算複雑性(FLOP)に基づく拡散モデルに対するGPUエネルギー消費予測のためのKaplanスケーリング法の適用法を提案する。
提案手法は, テキストエンコーディング, 反復的復号化, 復号化コンポーネントへの拡散モデル推論を分解し, 複数の推論ステップをまたいだ繰り返し実行により, 演算の復号化がエネルギー消費を支配しているという仮説を導いた。
この結果は拡散予測の計算バウンドの性質を検証し、持続可能なAIデプロイメント計画と炭素フットプリント推定の基礎を提供する。
論文 参考訳(メタデータ) (2025-11-21T08:12:47Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - Impact of Hyperparameter Optimization on the Accuracy of Lightweight Deep Learning Models for Real-Time Image Classification [0.0]
本研究では、7つの効率的なディープラーニングアーキテクチャの精度と収束挙動に及ぼすハイパーパラメータ調整の影響を解析する。
すべてのモデルは、一貫したトレーニング設定の下でImageNet-1Kデータセットでトレーニングされる。
その結果,コサイン学習速度の減衰と調整可能なバッチサイズは精度と収束速度を大きく向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-31T07:47:30Z) - Interpretable AI for Time-Series: Multi-Model Heatmap Fusion with Global Attention and NLP-Generated Explanations [1.331812695405053]
本稿では,ResNetが生成するヒートマップと,グローバルに重み付けされた入力サリエンシを備えた再構成された2次元変換器を統合することで,モデル解釈可能性を向上させる新しいフレームワークを提案する。
本手法は、勾配重み付きアクティベーションマップ(ResNet)とトランスフォーマーのアテンションロールアウトを統合可視化にマージし、空間的・時間的アライメントを実現する。
臨床(ECG不整脈検出)および産業データセットに関する実証的評価は,有意な改善を示した。
論文 参考訳(メタデータ) (2025-06-30T20:04:35Z) - Pix2Geomodel: A Next-Generation Reservoir Geomodeling with Property-to-Property Translation [2.004012818482403]
本研究では、Pix2Pixをベースとした新しい条件付き生成対向ネットワーク(cGAN)フレームワークであるPix2Geomodelを紹介する。
グローニンゲンガス田のロトリーゲンド貯水池から貯水池特性(空洞、ポーシティ、透水性、飽和度)を予測するように設計されている。
その結果, 病状 (PA 0.88, FWIoU 0.85) と水飽和 (PA 0.96, FWIoU 0.95) の精度が高く, 気孔率 (PA 0.70, FWIoU 0.55) と透過性 (PA 0.74, FWIoU 0.60) が適度に向上し, 翻訳性能も良好であった。
論文 参考訳(メタデータ) (2025-06-21T15:58:27Z) - Stochastic Primal-Dual Double Block-Coordinate for Two-way Partial AUC Maximization [56.805574957824135]
2方向部分AUCAUCは、不均衡なデータを持つバイナリ分類における重要な性能指標である。
TPAUC最適化のための既存のアルゴリズムは未探索のままである。
TPAUC最適化のための2つの革新的な二重座標ブロック座標アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-05-28T03:55:05Z) - Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.2999888908665658]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。
我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。
NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文 参考訳(メタデータ) (2024-12-10T19:00:01Z) - Towards Hyper-parameter-free Federated Learning [1.3682156035049038]
グローバルモデル更新の自動スケーリングのためのアルゴリズムを導入する。
第1のアルゴリズムでは、クライアントにおける降下検知ステップサイズ体制が、サーバの目的に対して降下を保証することが保証される。
第2のアルゴリズムは、サンプリングされたクライアントの目的値の平均値が、スケーリング係数を計算するのに必要な値サーバの実用的で効果的な代用であることを示している。
論文 参考訳(メタデータ) (2024-08-30T09:35:36Z) - ORBIT: Oak Ridge Base Foundation Model for Earth System Predictability [10.88886669820126]
我々はOak Ridge Base Foundation Model for Earth System Predictability (ORBIT)を紹介する。
ORBITは、その種の最大のモデルであり、現在の気候AIファンデーションモデルサイズを1000倍に超えている。
Frontierスーパーコンピュータの性能スケーリングテストでは、ORBITは684ペタFLOPSから1.6ペタFLOPSの持続スループットを達成した。
論文 参考訳(メタデータ) (2024-04-23T03:39:57Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。