論文の概要: RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles
- arxiv url: http://arxiv.org/abs/2505.05452v1
- Date: Thu, 08 May 2025 17:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.986916
- Title: RL-DAUNCE: Reinforcement Learning-Driven Data Assimilation with Uncertainty-Aware Constrained Ensembles
- Title(参考訳): RL-DAUNCE:不確実性を考慮した学習駆動型データ同化
- Authors: Pouria Behnoudfar, Nan Chen,
- Abstract要約: RL-DAUNCEは,物理制約によるデータ同化を向上する新しいRL-DAUNCE法である。
まず、RL-DAUNCEは機械学習の計算効率を継承する。
第2に、RL-DAUNCEは複数のアンサンブルメンバーを前進させることによって不確実性を強調する。
第3に、RL-DAUNCEのアンサンブル・アズ・エージェントの設計は、物理的な制約の実施を促進する。
- 参考スコア(独自算出の注目度): 1.609702184777697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning has become a powerful tool for enhancing data assimilation. While supervised learning remains the standard method, reinforcement learning (RL) offers unique advantages through its sequential decision-making framework, which naturally fits the iterative nature of data assimilation by dynamically balancing model forecasts with observations. We develop RL-DAUNCE, a new RL-based method that enhances data assimilation with physical constraints through three key aspects. First, RL-DAUNCE inherits the computational efficiency of machine learning while it uniquely structures its agents to mirror ensemble members in conventional data assimilation methods. Second, RL-DAUNCE emphasizes uncertainty quantification by advancing multiple ensemble members, moving beyond simple mean-state optimization. Third, RL-DAUNCE's ensemble-as-agents design facilitates the enforcement of physical constraints during the assimilation process, which is crucial to improving the state estimation and subsequent forecasting. A primal-dual optimization strategy is developed to enforce constraints, which dynamically penalizes the reward function to ensure constraint satisfaction throughout the learning process. Also, state variable bounds are respected by constraining the RL action space. Together, these features ensure physical consistency without sacrificing efficiency. RL-DAUNCE is applied to the Madden-Julian Oscillation, an intermittent atmospheric phenomenon characterized by strongly non-Gaussian features and multiple physical constraints. RL-DAUNCE outperforms the standard ensemble Kalman filter (EnKF), which fails catastrophically due to the violation of physical constraints. Notably, RL-DAUNCE matches the performance of constrained EnKF, particularly in recovering intermittent signals, capturing extreme events, and quantifying uncertainties, while requiring substantially less computational effort.
- Abstract(参考訳): 機械学習はデータ同化を強化する強力なツールになっている。
教師付き学習は依然として標準的な方法であるが、強化学習(RL)はその逐次的意思決定フレームワークを通じて、モデル予測と観測との動的バランスによるデータ同化の反復性に自然に適合するユニークな利点を提供する。
RL-DAUNCEはRLをベースとした新しい手法で、3つの重要な側面を通して物理制約とデータ同化を強化する。
まず、RL-DAUNCEは機械学習の計算効率を継承する一方、エージェントは従来のデータ同化手法でアンサンブルメンバーをミラーするために一意に構成する。
第二に、RL-DAUNCEは複数のアンサンブルメンバーを前進させ、単純な平均状態最適化を超えて不確実な定量化を強調する。
第3に、RL-DAUNCEのアンサンブル・アズ・エージェントの設計は、状態推定とその後の予測を改善するために不可欠である同化過程における物理的な制約の実施を促進する。
学習過程を通して制約満足度を確保するために、報酬関数を動的にペナルティ化する制約を強制するために、原始双対最適化戦略が開発されている。
また、状態変数境界はRL作用空間を制約することによって尊重される。
これらの特徴は、効率を犠牲にすることなく物理的に整合性を確保する。
RL-DAUNCEは、強い非ガウス的特徴と複数の物理的制約によって特徴づけられる断続的な大気現象であるマドデン・ジュリアン振動に適用される。
RL-DAUNCEは標準アンサンブルカルマンフィルタ(EnKF)よりも優れており、物理的制約の違反により破滅的に失敗する。
特に、RL-DAUNCEは制約付きEnKFの性能、特に断続的な信号の回復、極端な事象の捕捉、不確実性の定量化において、計算労力を大幅に削減する。
関連論文リスト
- Paving the way for scientific foundation models: enhancing generalization and robustness in PDEs with constraint-aware pre-training [49.8035317670223]
科学基盤モデル(SciFM)は、様々な領域にまたがる伝達可能な表現を学習するための有望なツールとして登場しつつある。
本稿では,PDE残差を単独の学習信号として,あるいはデータ損失と組み合わせて事前学習に組み込むことにより,限定的あるいは実用的でないトレーニングデータに補償することを提案する。
以上の結果から, PDE制約による事前学習は, 解データのみを訓練したモデルよりも, 一般化を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-24T19:12:39Z) - Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Federated Ensemble Model-based Reinforcement Learning in Edge Computing [21.840086997141498]
フェデレートラーニング(Federated Learning、FL)は、プライバシ保護のための分散機械学習パラダイムである。
モデルベースRLとアンサンブル知識蒸留をFLに効果的に組み込む新しいFRLアルゴリズムを提案する。
具体的には、FLと知識蒸留を利用して、クライアント向けの動的モデルのアンサンブルを作成し、環境と相互作用することなく、単にアンサンブルモデルを使用することでポリシーを訓練する。
論文 参考訳(メタデータ) (2021-09-12T16:19:10Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。