論文の概要: Making Tunable Parameters State-Dependent in Weather and Climate Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.04268v1
- Date: Wed, 07 Jan 2026 11:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.845119
- Title: Making Tunable Parameters State-Dependent in Weather and Climate Models with Reinforcement Learning
- Title(参考訳): 強化学習による気象・気候モデルにおける可変パラメータの状態依存化
- Authors: Pritthijit Nath, Sebastian Schemm, Henry Moss, Peter Haynes, Emily Shuckburgh, Mark J. Webb,
- Abstract要約: 本研究は,パラメトリックスキームのコンポーネントをオンラインで学習するフレームワークを提案する。
理想的なテストベッドの階層にまたがって、結果のRL駆動パラメータの更新を評価する。
結果は、RLがスキリフルな状態依存とレギュラー対応のパラメトリを提供することを強調している。
- 参考スコア(独自算出の注目度): 0.5131152350448099
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weather and climate models rely on parametrisations to represent unresolved sub-grid processes. Traditional schemes rely on fixed coefficients that are weakly constrained and tuned offline, contributing to persistent biases that limit their ability to adapt to the underlying physics. This study presents a framework that learns components of parametrisation schemes online as a function of the evolving model state using reinforcement learning (RL) and evaluates the resulting RL-driven parameter updates across a hierarchy of idealised testbeds spanning a simple climate bias correction (SCBC), a radiative-convective equilibrium (RCE), and a zonal mean energy balance model (EBM) with both single-agent and federated multi-agent settings. Across nine RL algorithms, Truncated Quantile Critics (TQC), Deep Deterministic Policy Gradient (DDPG), and Twin Delayed DDPG (TD3) achieved the highest skill and the most stable convergence across configurations, with performance assessed against a static baseline using area-weighted RMSE, temperature profile and pressure-level diagnostics. For the EBM, single-agent RL outperformed static parameter tuning with the strongest gains in tropical and mid-latitude bands, while federated RL on multi-agent setups enabled geographically specialised control and faster convergence, with a six-agent DDPG configuration using frequent aggregation yielding the lowest area-weighted RMSE across the tropics and mid-latitudes. The learnt corrections were also physically meaningful as agents modulated EBM radiative parameters to reduce meridional biases, adjusted RCE lapse rates to match vertical temperature errors, and stabilised SCBC heating increments to limit drift. Overall, results highlight RL to deliver skilful state-dependent, and regime-aware parametrisations, offering a scalable pathway for online learning within numerical models.
- Abstract(参考訳): 気象・気候モデルは未解決のサブグリッドプロセスを表現するためにパラメータに依存する。
従来のスキームは、弱く制約され、オフラインで調整された固定係数に依存しており、基礎となる物理学に適応する能力を制限する永続的なバイアスに寄与する。
本研究では, 簡易気候バイアス補正 (SCBC) , 放射対流平衡 (RCE) , 帯平均エネルギー収支モデル (EBM) を, 単エージェント, フェデレーション, フェデレーション, フェデレーション, フェデレーションの2つの設定で網羅した, 理想的なテストベッドの階層にまたがるRL駆動パラメーターの更新を, 強化学習 (RL) を用いて, 進化モデル状態の関数としてオンラインに学習するフレームワークを提案する。
9つのRLアルゴリズム、Truncated Quantile Critics (TQC)、Deep Deterministic Policy Gradient (DDPG)、Twin Delayed DDPG (TD3) は、領域重み付きRMSE、温度プロファイル、圧力レベル診断を用いて静的ベースラインに対して性能評価を行い、最も高い技術と最も安定したコンバージェンスを実現した。
EBMでは, 単一エージェントRLは, 熱帯・中緯度帯で最大利得の静的パラメータチューニングに優れ, マルチエージェント構成上の連合RLは地理的に特殊化された制御と高速収束を可能にした。
学習した補正は、乾燥バイアスを減らすためにESM放射パラメータを変調し、垂直温度誤差に合わせるようにRCEラプス速度を調整し、ドリフトを制限するための安定化SCBC加熱インクリメントとして物理的に有意であった。
全体としては、RLは、数値モデル内でオンライン学習のためのスケーラブルなパスを提供する、スキリフルな状態依存型およびレシシック対応のパラメータを提供する。
関連論文リスト
- ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - High-Rank Structured Modulation for Parameter-Efficient Fine-Tuning [57.85676271833619]
低ランク適応 (LoRA) は、全パラメータの微調整をシミュレートするために低ランク更新法を用いる。
textbfStructured textbfMOdulation textbfAdapterは、より高いランクを維持しながらトレーニング可能なパラメータを少なくする。
論文 参考訳(メタデータ) (2026-01-12T13:06:17Z) - Consolidation or Adaptation? PRISM: Disentangling SFT and RL Data via Gradient Concentration [56.074760766965085]
PRISMは、モデルの既存の知識との認知的対立度に基づいてデータを調停する動的認識フレームワークを実現する。
この結果から,内部最適化方式に基づくデータ分離が,スケーラブルでロバストなエージェントアライメントに不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-01-12T05:43:20Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - CO-PFL: Contribution-Oriented Personalized Federated Learning for Heterogeneous Networks [51.43780477302533]
コントリビューション指向型PFL(CO-PFL)は,グローバルアグリゲーションに対する各クライアントのコントリビューションを動的に推定するアルゴリズムである。
CO-PFLは、パーソナライズ精度、堅牢性、スケーラビリティ、収束安定性において、最先端の手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-10-23T05:10:06Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - FedRAIN-Lite: Federated Reinforcement Algorithms for Improving Idealised Numerical Weather and Climate Models [0.5131152350448099]
気候モデルにおけるサブグリッドパラメータ化は、伝統的に静的で、オフラインで調整される。
FedRAIN-Liteは一般的な循環モデルで使用される空間分解を反映するフレームワークである。
Deep Deterministic Policy Gradientは、静的と単一エージェントのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-19T23:54:13Z) - Aggregation of Published Non-Uniform Axial Power Data for Phase II of the OECD/NEA AI/ML Critical Heat Flux Benchmark [0.0]
臨界熱流束(CHF)は軽水炉の沸騰危機の始まりを示す。
この研究は、一様および非一様軸加熱条件の両方をカバーする広いCHFデータセットをコンパイルし、デジタル化する。
論文 参考訳(メタデータ) (2025-06-18T16:01:44Z) - PVBF: A Framework for Mitigating Parameter Variation Imbalance in Online Continual Learning [19.18078967631654]
オンライン連続学習(OCL)は、AIシステムが非定常データストリームから適応的に学習できるようにする。
本稿では,パラメータ変動の不均衡をERベースOCLの予測バイアスに寄与する重要な要因として挙げる。
論文 参考訳(メタデータ) (2025-02-25T02:56:42Z) - RAIN: Reinforcement Algorithms for Improving Numerical Weather and Climate Models [0.0]
現在の気候モデルは、サブグリッドスケールのプロセスを表現するために複雑な数学的パラメータ化に依存している。
本研究は,重要なパラメータ化課題に対処するために,強化学習と理想的な気候モデルを統合することを検討する。
論文 参考訳(メタデータ) (2024-08-28T20:10:46Z) - Towards Physically Consistent Deep Learning For Climate Model Parameterizations [46.07009109585047]
パラメータ化は、気候予測において、系統的なエラーと大きな不確実性の主な原因である。
深層学習(DL)に基づくパラメータ化は、計算に高価で高解像度のショートシミュレーションのデータに基づいて訓練されており、気候モデルを改善するための大きな可能性を示している。
本稿では,DLに基づくパラメータ化のための効率的な教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T10:02:49Z) - Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training [58.20089993899729]
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
論文 参考訳(メタデータ) (2023-12-01T05:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。