論文の概要: Lyapunov-Based Reinforcement Learning State Estimator
- arxiv url: http://arxiv.org/abs/2010.13529v2
- Date: Thu, 7 Jan 2021 16:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:25:31.730485
- Title: Lyapunov-Based Reinforcement Learning State Estimator
- Title(参考訳): lyapunovに基づく強化学習状態推定器
- Authors: Liang Hu, Chengwei Wu, Wei Pan
- Abstract要約: 非線形離散時間系の状態推定問題を考察する。
制御理論におけるリャプノフの手法と深い強化学習を組み合わせて状態推定器を設計する。
ディープニューラルネットワークによって近似された状態推定器を学習するために,アクタ-批判的強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 9.356469388299928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the state estimation problem for nonlinear
stochastic discrete-time systems. We combine Lyapunov's method in control
theory and deep reinforcement learning to design the state estimator. We
theoretically prove the convergence of the bounded estimate error solely using
the data simulated from the model. An actor-critic reinforcement learning
algorithm is proposed to learn the state estimator approximated by a deep
neural network. The convergence of the algorithm is analysed. The proposed
Lyapunov-based reinforcement learning state estimator is compared with a number
of existing nonlinear filtering methods through Monte Carlo simulations,
showing its advantage in terms of estimate convergence even under some system
uncertainties such as covariance shift in system noise and randomly missing
measurements. To the best of our knowledge, this is the first reinforcement
learning based nonlinear state estimator with bounded estimate error
performance guarantee.
- Abstract(参考訳): 本稿では,非線形確率離散時間系の状態推定問題について考察する。
制御理論におけるリャプノフの手法と深い強化学習を組み合わせて状態推定器を設計する。
モデルからシミュレーションしたデータのみを用いて, 有界推定誤差の収束を理論的に証明する。
ディープニューラルネットワークによって近似される状態推定器を学習するために,アクタ-クリティック強化学習アルゴリズムを提案する。
アルゴリズムの収束は解析される。
提案するリアプノフ型強化学習状態推定器をモンテカルロシミュレーションによる既存の非線形フィルタ法と比較し,システムノイズの共分散変化や無作為な測定値の欠如といったいくつかの不確かさの下でも推定収束の利点を示した。
我々の知る限り、これは有界推定誤差性能を保証する強化学習に基づく非線形状態推定器としては初めてのものである。
関連論文リスト
- Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - Sample-efficient estimation of entanglement entropy through supervised
learning [0.0]
我々は,ネットワーク推定の不確実性の推定に特に焦点をあてた。
基準線法が正しい推定値を与えるのに失敗するサンプルサイズ体制における収束を観察する。
量子シミュレーション実験において,本手法のさらなる応用として,非単体進化のための量子相互情報を推定する。
論文 参考訳(メタデータ) (2023-09-14T09:38:14Z) - Online machine-learning forecast uncertainty estimation for sequential
data assimilation [0.0]
予測の不確実性の定量化は、最先端の数値予測とデータ同化システムの重要な側面である。
本研究では、状態依存予測の不確実性を推定する畳み込みニューラルネットワークに基づく機械学習手法を提案する。
ハイブリッドデータ同化法は,アンサンブルが比較的小さい場合に,アンサンブルカルマンフィルタと同等の性能を示す。
論文 参考訳(メタデータ) (2023-05-12T19:23:21Z) - Neural State-Space Models: Empirical Evaluation of Uncertainty
Quantification [0.0]
本稿では,ニューラル状態空間モデルを用いたシステム同定のための不確実性定量化に関する予備的結果を示す。
ベイズ確率的設定で学習問題をフレーム化し、ニューラルネットワークの重みと出力の後方分布を求める。
後部に基づいて,出力の信頼区間を構築し,潜在的に危険なアウト・オブ・ディストリビューション体制下でモデルの使用を効果的に診断できるサプライズ指標を定義する。
論文 参考訳(メタデータ) (2023-04-13T08:57:33Z) - Scalable computation of prediction intervals for neural networks via
matrix sketching [79.44177623781043]
既存の不確実性推定アルゴリズムでは、モデルアーキテクチャとトレーニング手順を変更する必要がある。
本研究では、与えられたトレーニングされたニューラルネットワークに適用し、近似予測間隔を生成できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-06T13:18:31Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - The Aleatoric Uncertainty Estimation Using a Separate Formulation with
Virtual Residuals [51.71066839337174]
既存の手法では、ターゲット推定における誤差を定量化できるが、過小評価する傾向がある。
本稿では,信号とその不確かさを推定するための新たな分離可能な定式化を提案し,オーバーフィッティングの影響を回避した。
提案手法は信号および不確実性推定のための最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T12:11:27Z) - Data Assimilation Networks [1.5545257664210517]
データ同化は、システムの数学的表現とノイズの観測を組み合わせることで、力学系の状態を予測することを目的としている。
本稿では,再帰的エルマンネットワークとデータ同化アルゴリズムを一般化した完全データ駆動型ディープラーニングアーキテクチャを提案する。
本アーキテクチャは, 明示的な正規化手法を使わずに, システム状態の確率密度関数の解析と伝播の両面において, EnKF に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2020-10-19T17:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。