論文の概要: Learning Control from Raw Position Measurements
- arxiv url: http://arxiv.org/abs/2301.13183v1
- Date: Mon, 30 Jan 2023 18:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 13:22:09.807307
- Title: Learning Control from Raw Position Measurements
- Title(参考訳): 原位置測定による学習制御
- Authors: Fabio Amadio, Alberto Dalla Libera, Daniel Nikovski, Ruggero Carli,
Diego Romeres
- Abstract要約: VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。
速度を直接測定できない機械システムに適用するために特別に設計されている。
- 参考スコア(独自算出の注目度): 13.79048931313603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a Model-Based Reinforcement Learning (MBRL) algorithm named
VF-MC-PILCO, specifically designed for application to mechanical systems where
velocities cannot be directly measured. This circumstance, if not adequately
considered, can compromise the success of MBRL approaches. To cope with this
problem, we define a velocity-free state formulation which consists of the
collection of past positions and inputs. Then, VF-MC-PILCO uses Gaussian
Process Regression to model the dynamics of the velocity-free state and
optimizes the control policy through a particle-based policy gradient approach.
We compare VF-MC-PILCO with our previous MBRL algorithm, MC-PILCO4PMS, which
handles the lack of direct velocity measurements by modeling the presence of
velocity estimators. Results on both simulated (cart-pole and UR5 robot) and
real mechanical systems (Furuta pendulum and a ball-and-plate rig) show that
the two algorithms achieve similar results. Conveniently, VF-MC-PILCO does not
require the design and implementation of state estimators, which can be a
challenging and time-consuming activity to be performed by an expert user.
- Abstract(参考訳): 本稿では,VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。
この状況は、適切に考慮されていないとしても、MBRLアプローチの成功を損なう可能性がある。
この問題に対処するために,過去の位置と入力の集合からなる速度自由状態定式化を定義する。
次に、VF-MC-PILCOはガウス過程回帰を用いて速度自由状態のダイナミクスをモデル化し、粒子ベースのポリシー勾配アプローチにより制御ポリシーを最適化する。
我々は,VF-MC-PILCOと従来のMBRLアルゴリズムであるMC-PILCO4PMSを比較する。
シミュレーション(カートポールロボットとUR5ロボット)と実機械システム(フルータ振り子とボール&プレートリグ)の両方の結果から,この2つのアルゴリズムが同様の結果が得られることが示された。
同様に、VF-MC-PILCOは状態推定器の設計と実装を必要としない。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Introducing a Deep Neural Network-based Model Predictive Control
Framework for Rapid Controller Implementation [41.38091115195305]
本研究は、HCCI燃焼制御のためのディープニューラルネットワーク(DNN)に基づく非線形MPCの実験的実装を示す。
ARM Cortex A72上のMPCのリアルタイム実装を可能にするために、Acadosソフトウェアパッケージを使用することで、最適化計算は1.4ms以内で完了する。
現像した制御器のIMEP軌道は, プロセス制約の観測に加えて, 根平均2乗誤差0.133バールで良好であった。
論文 参考訳(メタデータ) (2023-10-12T15:03:50Z) - Multirotor Ensemble Model Predictive Control I: Simulation Experiments [0.0]
アンサンブル表現されたガウス過程は、初期時間の最適利得を決定するために後方計算を行う。
端末制御と制御問題のためのEMPCを構築し、シミュレーション・同一双対研究の制御に適用する。
論文 参考訳(メタデータ) (2023-05-22T01:32:17Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文 参考訳(メタデータ) (2021-01-28T17:01:15Z) - Model-based Policy Search for Partially Measurable Systems [9.335154302282751]
部分計測可能システム(PMS)のためのモデルベース強化学習(MBRL)アルゴリズムを提案する。
Monte Carlo Probabilistic Inference for Learning COntrol for Partially Measurable Systems (MC-PILCO4PMS) と呼ばれる提案アルゴリズムは、システムダイナミクスをモデル化するためにガウスプロセス(GP)に依存している。
提案アルゴリズムの有効性はシミュレーションと2つの実システムの両方で検証されている。
論文 参考訳(メタデータ) (2021-01-21T17:39:22Z) - Fast and differentiable simulation of driven quantum systems [58.720142291102135]
我々は、ダイソン展開に基づく半解析手法を導入し、標準数値法よりもはるかに高速に駆動量子系を時間発展させることができる。
回路QEDアーキテクチャにおけるトランスモン量子ビットを用いた2量子ゲートの最適化結果を示す。
論文 参考訳(メタデータ) (2020-12-16T21:43:38Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Model-Based Reinforcement Learning for Physical Systems Without Velocity
and Acceleration Measurements [19.060544153434428]
ガウス過程回帰(GPR)に基づく強化学習(RL)アルゴリズムのための微分自由モデル学習フレームワークを提案する。
多くのメカニカルシステムでは、計測器によって位置のみを測定することができる。
2つの実プラットフォームで実施されたテストでは,提案モデルと組み合わせた状態定義により,推定性能が向上することが示された。
論文 参考訳(メタデータ) (2020-02-25T01:58:34Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。