論文の概要: Inferring Smooth Control: Monte Carlo Posterior Policy Iteration with
Gaussian Processes
- arxiv url: http://arxiv.org/abs/2210.03512v1
- Date: Fri, 7 Oct 2022 12:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 15:12:52.366457
- Title: Inferring Smooth Control: Monte Carlo Posterior Policy Iteration with
Gaussian Processes
- Title(参考訳): スムース制御の推測:ガウス過程によるモンテカルロ後続政策の反復
- Authors: Joe Watson and Jan Peters
- Abstract要約: オンラインシーケンシャル推論を用いて,よりスムーズなモデル予測因子制御を実現する方法を示す。
提案手法は,いくつかのロボット制御タスクにおいて,従来の手法と一致し,スムーズさを確保しつつ評価する。
- 参考スコア(独自算出の注目度): 39.411957858548355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo methods have become increasingly relevant for control of
non-differentiable systems, approximate dynamics models and learning from data.
These methods scale to high-dimensional spaces and are effective at the
non-convex optimizations often seen in robot learning. We look at sample-based
methods from the perspective of inference-based control, specifically posterior
policy iteration. From this perspective, we highlight how Gaussian noise priors
produce rough control actions that are unsuitable for physical robot
deployment. Considering smoother Gaussian process priors, as used in episodic
reinforcement learning and motion planning, we demonstrate how smoother model
predictive control can be achieved using online sequential inference. This
inference is realized through an efficient factorization of the action
distribution and a novel means of optimizing the likelihood temperature to
improve importance sampling accuracy. We evaluate this approach on several
high-dimensional robot control tasks, matching the sample efficiency of prior
heuristic methods while also ensuring smoothness. Simulation results can be
seen at https://monte-carlo-ppi.github.io/.
- Abstract(参考訳): モンテカルロ法は、微分不能なシステム、近似ダイナミクスモデル、データからの学習の制御にますます重要になっている。
これらの手法は高次元空間にスケールし、ロボット学習でよく見られる非凸最適化に有効である。
我々は,推論に基づく制御,特に後進政策の反復の観点から,サンプルベース手法を検討する。
この観点からは,ガウス雑音がロボットの物理的展開に不適な粗い制御行動を生成することを強調する。
エピソディック強化学習やモーションプランニングで用いられるより滑らかなガウス過程前処理を考慮し,オンラインシーケンシャル推論を用いてモデル予測制御がいかにスムーズに実現できるかを示す。
この推論は、アクション分布の効率的な因子化と、重要サンプリング精度を向上させるためにラピタ温度を最適化する新しい手段によって実現される。
本手法は,複数の高次元ロボット制御タスクにおいて,従来のヒューリスティック手法のサンプル効率に適合し,滑らか性を確保する。
シミュレーション結果はhttps://monte-carlo-ppi.github.io/で見ることができる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Efficient Weight-Space Laplace-Gaussian Filtering and Smoothing for Sequential Deep Learning [29.328769628694484]
連続学習のような関連するタスクのシーケンスを効果的に学習することは、ニューラルネットにとって重要な課題となる。
ベイズ推定に基づくタスクを逐次学習するための基盤的枠組みを用いてこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-09T11:54:33Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - GPU-Accelerated Policy Optimization via Batch Automatic Differentiation
of Gaussian Processes for Real-World Control [8.720903734757627]
我々は, 高速な予測サンプリング手法を利用して, 前方通過毎に軌道のバッチ処理を行うことにより, 政策最適化手法を開発した。
重機を用いた基準追従制御実験の訓練方針における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-28T09:31:15Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Active and sparse methods in smoothed model checking [2.28438857884398]
スパース変分法とアクティブラーニングに基づくモデルチェックの平滑化の拡張について検討する。
スパース変分ガウス過程推論アルゴリズムのオンライン拡張は、スムーズなモデル検査のための能動的学習手法を実装するためのスケーラブルな方法を提供する。
論文 参考訳(メタデータ) (2021-04-20T13:03:25Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。