論文の概要: Reinforcement learning based data assimilation for unknown state model
- arxiv url: http://arxiv.org/abs/2511.02286v1
- Date: Tue, 04 Nov 2025 05:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.823686
- Title: Reinforcement learning based data assimilation for unknown state model
- Title(参考訳): 強化学習に基づく未知状態モデルのためのデータ同化
- Authors: Ziyi Wang, Lijian Jiang,
- Abstract要約: 本研究では,強化学習とアンサンブルに基づくベイジアン・ファルトリング手法を組み合わせた新しい手法を提案する。
提案フレームワークは, 非線形および部分観測計測モデルを含む, 幅広い観測シナリオに対応している。
いくつかの数値的な例では,提案手法は高次元設定における精度とロバスト性を向上することを示した。
- 参考スコア(独自算出の注目度): 3.032674692886751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data assimilation (DA) has increasingly emerged as a critical tool for state estimation across a wide range of applications. It is signiffcantly challenging when the governing equations of the underlying dynamics are unknown. To this end, various machine learning approaches have been employed to construct a surrogate state transition model in a supervised learning framework, which relies on pre-computed training datasets. However, it is often infeasible to obtain noise-free ground-truth state sequences in practice. To address this challenge, we propose a novel method that integrates reinforcement learning with ensemble-based Bayesian ffltering methods, enabling the learning of surrogate state transition model for unknown dynamics directly from noisy observations, without using true state trajectories. Speciffcally, we treat the process for computing maximum likelihood estimation of surrogate model parameters as a sequential decision-making problem, which can be formulated as a discretetime Markov decision process (MDP). Under this formulation, learning the surrogate transition model is equivalent to ffnding an optimal policy of the MDP, which can be effectively addressed using reinforcement learning techniques. Once the model is trained offfine, state estimation can be performed in the online stage using ffltering methods based on the learned dynamics. The proposed framework accommodates a wide range of observation scenarios, including nonlinear and partially observed measurement models. A few numerical examples demonstrate that the proposed method achieves superior accuracy and robustness in high-dimensional settings.
- Abstract(参考訳): データ同化(DA)は、幅広いアプリケーションにまたがる状態推定のための重要なツールとして、ますます現れています。
基礎となる力学の制御方程式が未知の場合、これは明らかな挑戦である。
この目的のために、事前計算されたトレーニングデータセットに依存する教師付き学習フレームワークにおいて、状態遷移モデルを構築するために、さまざまな機械学習アプローチが採用されている。
しかし、実際には、ノイズのない基底構造状態のシーケンスを入手することは不可能であることが多い。
この課題に対処するため, 実状態軌跡を使わずに, 未知のダイナミックスを直接観測し, 補助状態遷移モデルの学習を可能にするため, 強化学習とアンサンブルに基づくベイズフラトリング手法を統合する新しい手法を提案する。
特に,サロゲートモデルパラメータの最大推定を離散時間マルコフ決定過程(MDP)として定式化できる逐次決定問題として扱う。
この定式化の下では、代理遷移モデルを学習することは、強化学習技術を用いて効果的に対処できるMDPの最適方針を曲げることと等価である。
モデルがオフフィングでトレーニングされると、学習されたダイナミクスに基づいたフラトリング手法を使用して、オンラインステージで状態推定を行うことができる。
提案フレームワークは, 非線形および部分観測計測モデルを含む, 幅広い観測シナリオに対応している。
いくつかの数値的な例では,提案手法は高次元設定における精度とロバスト性を向上することを示した。
関連論文リスト
- Semi-Supervised Model-Free Bayesian State Estimation from Compressed Measurements [57.04370580292727]
圧縮測定によるベイズ状態の推定について考察する。
時間的測定ベクトルの寸法は、推定される時間的状態ベクトルの寸法よりも小さい。
状態の進化の基盤となる力学モデルは「モデルフリープロセス」では未知数である。
論文 参考訳(メタデータ) (2024-07-10T05:03:48Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Gaussian process learning of nonlinear dynamics [0.0]
モデルパラメータのキャラクタリゼーションのベイズ推定により非線形力学を学習する手法を提案する。
本稿では,提案手法の適用性について,力学系におけるいくつかの典型的なシナリオについて論じる。
論文 参考訳(メタデータ) (2023-12-19T14:27:26Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。