Fugu-MT 論文翻訳(概要): Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning

論文の概要: Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2401.00916v1
Date: Mon, 1 Jan 2024 06:53:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 15:09:21.003516
Title: Data Assimilation in Chaotic Systems Using Deep Reinforcement Learning
Title（参考訳）: 深層強化学習を用いたカオスシステムにおけるデータ同化
Authors: Mohamad Abed El Rahman Hammoud and Naila Raboudi and Edriss S. Titi and Omar Knio and Ibrahim Hoteit
Abstract要約: データ同化は、気候予報や天気予報から自動運転車の軌道計画まで、様々な応用において重要な役割を果たしている。近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。本研究では、強化学習(RL)を用いて状態変数の完全あるいは部分的観測を用いて状態修正を行う新しいDA戦略を提案する。
参考スコア（独自算出の注目度）: 0.5999777817331317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data assimilation (DA) plays a pivotal role in diverse applications, ranging from climate predictions and weather forecasts to trajectory planning for autonomous vehicles. A prime example is the widely used ensemble Kalman filter (EnKF), which relies on linear updates to minimize variance among the ensemble of forecast states. Recent advancements have seen the emergence of deep learning approaches in this domain, primarily within a supervised learning framework. However, the adaptability of such models to untrained scenarios remains a challenge. In this study, we introduce a novel DA strategy that utilizes reinforcement learning (RL) to apply state corrections using full or partial observations of the state variables. Our investigation focuses on demonstrating this approach to the chaotic Lorenz '63 system, where the agent's objective is to minimize the root-mean-squared error between the observations and corresponding forecast states. Consequently, the agent develops a correction strategy, enhancing model forecasts based on available system state observations. Our strategy employs a stochastic action policy, enabling a Monte Carlo-based DA framework that relies on randomly sampling the policy to generate an ensemble of assimilated realizations. Results demonstrate that the developed RL algorithm performs favorably when compared to the EnKF. Additionally, we illustrate the agent's capability to assimilate non-Gaussian data, addressing a significant limitation of the EnKF.
Abstract（参考訳）: data assimilation(da)は、気候予測や天気予報、自動運転車の軌道計画など、さまざまなアプリケーションにおいて重要な役割を果たす。主な例として広く使われているアンサンブルカルマンフィルタ(EnKF)があり、これは予測状態のアンサンブルの分散を最小化するために線形更新に依存する。近年の進歩は、主に教師付き学習フレームワーク内で、この領域でディープラーニングアプローチが出現している。しかし、これらのモデルの未学習シナリオへの適応性は依然として課題である。本研究では,強化学習(rl)を活用した新しいda戦略を導入し,状態変数の完全あるいは部分的観測を用いて状態補正を行う。本研究は、観測と対応する予測状態の間の根平均二乗誤差を最小化することを目的としたカオスロレンツ'63システムに対するこのアプローチの実証に焦点を当てている。その結果、エージェントは、利用可能なシステム状態の観測に基づいてモデル予測を強化する補正戦略を開発する。我々の戦略は確率的行動ポリシーを用いており、モンテカルロを基盤としたDAフレームワークはポリシーをランダムにサンプリングし、同化実現のアンサンブルを生成する。その結果,このRLアルゴリズムはEnKFと比較して良好な性能を示した。さらに、エージェントが非ガウスデータを同化し、EnKFの大幅な制限に対処する能力について説明する。

関連論文リスト

Model-free policy gradient for discrete-time mean-field control [1.1470070927586018]
本研究では,有限状態空間とコンパクトな行動空間を持つ平均場制御問題に対するモデル自由政策学習について検討する。我々は,MFCのモデルフリーポリシー勾配アルゴリズムであるMF-REINFORCEを開発し,そのバイアスと平均二乗誤差に明確な定量的境界を確立する。
論文参考訳（メタデータ） (2026-01-16T11:49:25Z)
Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。 MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。 MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文参考訳（メタデータ） (2025-11-26T17:01:41Z)
Control-Augmented Autoregressive Diffusion for Data Assimilation [17.305296093966803]
本稿では,ARDMを軽量コントローラで拡張するアモールト化フレームワークを提案する。我々はこの枠組みをカオス偏微分方程式(PDE)に対するデータ同化(DA)の文脈で評価する。提案手法は,DA推論をオンザフライ修正による単一前方ロールアウトに還元し,推論中に高価な随伴計算や最適化を回避する。
論文参考訳（メタデータ） (2025-10-08T04:37:32Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
PnP-DA: Towards Principled Plug-and-Play Integration of Variational Data Assimilation and Generative Models [0.1052166918701117]
地球系のモデリングは科学計算における根本的な課題である。最も強力なAIや物理ベースの予測システムでさえ、徐々にエラーが蓄積される。本稿では,背景予測に基づいて事前学習した事前条件を1つのフォワードパスで,軽量で勾配に基づく解析更新を置き換えるPlug-and-Playアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-08-01T05:19:19Z)
Data-assimilated model-informed reinforcement learning [3.4748713192043876]
実際には、センサーはシステムの部分的および雑音的な測定(オブレーション)のみを提供することが多い。本稿では,部分的かつノイズの多い可観測性を持つカオスシステムの制御を可能にするフレームワークを提案する。 DA-MIRLは、部分的な観測と近似モデルから、環境のカオス的ダイナミクスをリアルタイムで推定し、抑制する。
論文参考訳（メタデータ） (2025-06-02T15:02:26Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-02T10:09:44Z)
On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-10-21T18:31:04Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルベースのオフライン強化学習は、オフラインデータセットとモデルダイナミクスに基づいたポリシーを訓練する。本稿では,その問題をモデルバイアスとポリシーシフトという2つの重要な要素に分解する。シフト対応モデルに基づくオフライン強化学習(SAMBO-RL)を紹介する。
論文参考訳（メタデータ） (2024-08-23T04:25:09Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Calibration of Time-Series Forecasting: Detecting and Adapting Context-Driven Distribution Shift [28.73747033245012]
本稿では,コンテキスト駆動分布シフトの検出と適応のための普遍的キャリブレーション手法を提案する。レジデンシャルベースCDS検出器(Residual-based CDS detector)またはリコンディショナー(Reconditionor)と呼ばれる新しいCDS検出器は、モデルの脆弱性をCDSに定量化する。高いリコンディショナースコアは、重度の感受性を示し、したがってモデル適応を必要とする。
論文参考訳（メタデータ） (2023-10-23T11:58:01Z)
Boosted Control Functions [10.503777692702952]
本研究の目的は,因果効果推定と予測タスクのギャップを埋めることである。我々は,機械学習の分布場と同時方程式モデル,およびエコノメティクスの制御関数との新たな接続を確立する。このフレームワーク内では、予測モデルに対する不変性の強い概念を提案し、それを既存の(ウィーカー)バージョンと比較する。
論文参考訳（メタデータ） (2023-10-09T15:43:46Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
$\clubsuit$ CLOVER $\clubsuit$: Probabilistic Forecasting with Coherent Learning Objective Reparameterization [42.215158938066054]
MQForecasterニューラルネットワークアーキテクチャを多変量ガウス因子モデルで拡張し,構築によるコヒーレンスを実現する。我々はこの手法をCLOVER(Coherent Learning Objective Reparametrization Neural Network)と呼ぶ。 CLOVERは最先端のコヒーレント予測手法と比較して,スケールしたCRPS予測精度が15%向上した。
論文参考訳（メタデータ） (2023-07-19T07:31:37Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文参考訳（メタデータ） (2022-02-14T16:42:16Z)
Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文参考訳（メタデータ） (2022-02-10T16:07:17Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。