論文の概要: Model-based Policy Search for Partially Measurable Systems
- arxiv url: http://arxiv.org/abs/2101.08740v1
- Date: Thu, 21 Jan 2021 17:39:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 11:24:22.074494
- Title: Model-based Policy Search for Partially Measurable Systems
- Title(参考訳): 部分測定可能なシステムのモデルに基づくポリシー探索
- Authors: Fabio Amadio, Alberto Dalla Libera, Ruggero Carli, Daniel Nikovski,
Diego Romeres
- Abstract要約: 部分計測可能システム(PMS)のためのモデルベース強化学習(MBRL)アルゴリズムを提案する。
Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS) と呼ばれる提案アルゴリズムは、システムダイナミクスをモデル化するためにガウスプロセス(GP)に依存している。
提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。
- 参考スコア(独自算出の注目度): 9.335154302282751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a Model-Based Reinforcement Learning (MBRL)
algorithm for Partially Measurable Systems (PMS), i.e., systems where the state
can not be directly measured, but must be estimated through proper state
observers. The proposed algorithm, named Monte Carlo Probabilistic Inference
for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS), relies on
Gaussian Processes (GPs) to model the system dynamics, and on a Monte Carlo
approach to update the policy parameters. W.r.t. previous GP-based MBRL
algorithms, MC-PILCO4PMS models explicitly the presence of state observers
during policy optimization, allowing to deal PMS. The effectiveness of the
proposed algorithm has been tested both in simulation and in two real systems.
- Abstract(参考訳): 本稿では, 状態を直接測定することはできないが, 適切な状態観察者によって推定されなければならない部分計測システム (pms) のためのモデルベース強化学習 (mbrl) アルゴリズムを提案する。
提案したアルゴリズムは、MC-PILCO4PMS (Monte Carlo Probabilistic Inference for Learning Control for partially Measurable Systems) と名付けられ、システムダイナミクスをモデル化するためにガウス過程(GP)、およびポリシーパラメータを更新するためのモンテカルロアプローチに依存している。
W.r.t.
これまでのGPベースのMBRLアルゴリズム、MC-PILCO4PMSモデルは、ポリシー最適化中の状態オブザーバの存在を明確に示しており、PMSを処理できる。
提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Probabilistic Model Checking of Stochastic Reinforcement Learning Policies [5.923818043882103]
本稿では,強化学習(RL)ポリシーを検証する手法を提案する。
このアプローチは、アルゴリズムとその対応する環境がMarkovプロパティに一括して準拠する限り、任意のRLアルゴリズムと互換性がある。
その結果,本手法はRLポリシーの検証に適していることがわかった。
論文 参考訳(メタデータ) (2024-03-27T16:15:21Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States [4.4820711784498]
本稿では,潜在状態を持つ未知非線形系に対する最適入力軌道の計算法を提案する。
提案手法の有効性を数値シミュレーションで示す。
論文 参考訳(メタデータ) (2023-03-31T11:06:09Z) - Learning Control from Raw Position Measurements [13.79048931313603]
VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。
速度を直接測定できない機械システムに適用するために特別に設計されている。
論文 参考訳(メタデータ) (2023-01-30T18:50:37Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文 参考訳(メタデータ) (2021-01-28T17:01:15Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - TS-MPC for Autonomous Vehicle using a Learning Approach [0.0]
車両力学の高木スジェノ(TS)表現をデータ駆動で学習する。
TSモデリングに対処するために、適応型ニューロファジィ推論システム(ANFIS)を用いる。
提案手法は,外部プランナのレースベース参照とMHEからの推定により提案される。
論文 参考訳(メタデータ) (2020-04-29T17:42:33Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。