論文の概要: Online Observer-Based Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.02057v3
- Date: Mon, 17 Jul 2023 19:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 20:02:03.503274
- Title: Online Observer-Based Inverse Reinforcement Learning
- Title(参考訳): オンラインオブザーバによる逆強化学習
- Authors: Ryan Self, Kevin Coleman, He Bai, Rushikesh Kamalapurkar
- Abstract要約: 従来の状態推定を履歴スタックで再利用する新しいオブザーバ手法を含む,IRLのための2つのオブザーバベースの技術が開発されている。
収束と堅牢性の理論的保証は適切な励起条件下で確立される。
- 参考スコア(独自算出の注目度): 9.630080382952425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, a novel approach to the output-feedback inverse reinforcement
learning (IRL) problem is developed by casting the IRL problem, for linear
systems with quadratic cost functions, as a state estimation problem. Two
observer-based techniques for IRL are developed, including a novel observer
method that re-uses previous state estimates via history stacks. Theoretical
guarantees for convergence and robustness are established under appropriate
excitation conditions. Simulations demonstrate the performance of the developed
observers and filters under noisy and noise-free measurements.
- Abstract(参考訳): 本稿では,2次コスト関数を持つ線形システムに対して,IRL問題を状態推定問題としてキャストすることで,出力フィードバック逆強化学習(IRL)問題に対する新しいアプローチを開発した。
従来の状態推定を履歴スタックで再利用する新しいオブザーバ手法を含む,IRLのための2つのオブザーバベースの技術を開発した。
収束と堅牢性の理論的保証は適切な励起条件下で確立される。
ノイズフリー・ノイズフリー測定における観測器とフィルタの性能をシミュレーションにより検証した。
関連論文リスト
- Diffusion-based subsurface multiphysics monitoring and forecasting [4.2193475197905705]
本稿では,ビデオ拡散モデルを用いた新しい地下マルチ物理モニタリングおよび予測フレームワークを提案する。
このアプローチは、CO$2$進化の高品質な表現と、それに伴う地下弾性特性の変化を生成することができる。
コンパスモデルに基づく実験では,CO$モニタリングに関連する本質的に複雑な物理現象を,提案手法がうまく捉えることができた。
論文 参考訳(メタデータ) (2024-07-25T23:04:37Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。
我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文 参考訳(メタデータ) (2022-05-19T00:05:03Z) - Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。
本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T12:33:42Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Identification and Adaptation with Binary-Valued Observations under
Non-Persistent Excitation Condition [1.6897716547971817]
2値観測による回帰モデルのパラメータ推定のためのオンライン予測準ニュートン型アルゴリズムを提案する。
推定アルゴリズムの強い整合性を確立し,収束率を与える。
適応予測器の収束と適応制御への応用についても論じる。
論文 参考訳(メタデータ) (2021-07-08T03:57:50Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。