論文の概要: Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application
- arxiv url: http://arxiv.org/abs/2101.12115v4
- Date: Tue, 6 Sep 2022 10:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 11:30:14.184712
- Title: Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application
- Title(参考訳): 実システムを用いたモンテカルロ勾配推定を用いたモデルに基づく政策探索
- Authors: Fabio Amadio, Alberto Dalla Libera, Riccardo Antonello, Daniel
Nikovski, Ruggero Carli, Diego Romeres
- Abstract要約: EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
- 参考スコア(独自算出の注目度): 12.854118767247453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a Model-Based Reinforcement Learning (MBRL)
algorithm named \emph{Monte Carlo Probabilistic Inference for Learning COntrol}
(MC-PILCO). The algorithm relies on Gaussian Processes (GPs) to model the
system dynamics and on a Monte Carlo approach to estimate the policy gradient.
This defines a framework in which we ablate the choice of the following
components: (i) the selection of the cost function, (ii) the optimization of
policies using dropout, (iii) an improved data efficiency through the use of
structured kernels in the GP models. The combination of the aforementioned
aspects affects dramatically the performance of MC-PILCO. Numerical comparisons
in a simulated cart-pole environment show that MC-PILCO exhibits better data
efficiency and control performance w.r.t. state-of-the-art GP-based MBRL
algorithms. Finally, we apply MC-PILCO to real systems, considering in
particular systems with partially measurable states. We discuss the importance
of modeling both the measurement system and the state estimators during policy
optimization. The effectiveness of the proposed solutions has been tested in
simulation and on two real systems, a Furuta pendulum and a ball-and-plate rig.
- Abstract(参考訳): 本稿では,モデルベース強化学習 (mbrl) アルゴリズムである \emph{monte carlo probabilistic inference for learning control} (mc-pilco) を提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
これは、以下のコンポーネントの選択を廃止するフレームワークを定義します。
(i)コスト関数の選択
(ii)ドロップアウトによる政策の最適化
(iii)gpモデルにおける構造化カーネルの利用によるデータ効率の向上。
上記の側面の組み合わせは、MC-PILCOの性能に劇的に影響する。
シミュレーションされたカートポール環境における数値比較では、MC-PILCOは、最先端のGPベースのMBRLアルゴリズムにおいて、より良いデータ効率と制御性能を示す。
最後に、mc-pilcoを実システムに適用し、特に部分的に測定可能な状態を持つシステムについて検討する。
政策最適化における計測システムと状態推定器のモデリングの重要性について考察する。
提案手法の有効性はシミュレーションおよびフルタ振り子とボール&プレートリグの2つの実システムで検証されている。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Learning Control from Raw Position Measurements [13.79048931313603]
VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。
速度を直接測定できない機械システムに適用するために特別に設計されている。
論文 参考訳(メタデータ) (2023-01-30T18:50:37Z) - Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文 参考訳(メタデータ) (2022-05-30T23:14:24Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z) - Machine Learning Simulates Agent-Based Model Towards Policy [0.0]
ブラジルの46大都市圏(MR)におけるエージェントベースモデル(ABM)をエミュレートし,競合する政策を評価するために,ランダムな森林機械学習アルゴリズムを用いた。
その結果,各地域における政策に対する最適(かつ非最適)性能が得られた。
以上の結果から,MRには最適あるいは非最適結果が好まれる組込み構造がすでに存在することが示唆された。
論文 参考訳(メタデータ) (2022-03-04T21:19:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - ParticleAugment: Sampling-Based Data Augmentation [80.44268663372233]
モデルトレーニング中に最適な拡張ポリシーとスケジュールを求めるために,粒子フィルタリングの定式化を提案する。
CIFAR-10, CIFAR-100, ImageNetデータセットにおいて, 自動拡張のための定式化が有望な結果に達することを示す。
論文 参考訳(メタデータ) (2021-06-16T10:56:02Z) - Model-based Policy Search for Partially Measurable Systems [9.335154302282751]
部分計測可能システム(PMS)のためのモデルベース強化学習(MBRL)アルゴリズムを提案する。
Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS) と呼ばれる提案アルゴリズムは、システムダイナミクスをモデル化するためにガウスプロセス(GP)に依存している。
提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。
論文 参考訳(メタデータ) (2021-01-21T17:39:22Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。