論文の概要: Learning High-Level Policies for Model Predictive Control
- arxiv url: http://arxiv.org/abs/2007.10284v2
- Date: Sun, 9 May 2021 16:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:44:10.650321
- Title: Learning High-Level Policies for Model Predictive Control
- Title(参考訳): モデル予測制御のための高レベル政策の学習
- Authors: Yunlong Song, Davide Scaramuzza
- Abstract要約: Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
- 参考スコア(独自算出の注目度): 54.00297896763184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of policy search and deep neural networks holds the promise
of automating a variety of decision-making tasks. Model Predictive Control
(MPC) provides robust solutions to robot control tasks by making use of a
dynamical model of the system and solving an optimization problem online over a
short planning horizon. In this work, we leverage probabilistic decision-making
approaches and the generalization capability of artificial neural networks to
the powerful online optimization by learning a deep high-level policy for the
MPC (High-MPC). Conditioning on robot's local observations, the trained neural
network policy is capable of adaptively selecting high-level decision variables
for the low-level MPC controller, which then generates optimal control commands
for the robot. First, we formulate the search of high-level decision variables
for MPC as a policy search problem, specifically, a probabilistic inference
problem. The problem can be solved in a closed-form solution. Second, we
propose a self-supervised learning algorithm for learning a neural network
high-level policy, which is useful for online hyperparameter adaptations in
highly dynamic environments. We demonstrate the importance of incorporating the
online adaption into autonomous robots by using the proposed method to solve a
challenging control problem, where the task is to control a simulated quadrotor
to fly through a swinging gate. We show that our approach can handle situations
that are difficult for standard MPC.
- Abstract(参考訳): ポリシー検索とディープニューラルネットワークの組み合わせは、さまざまな意思決定タスクを自動化することを約束している。
モデル予測制御(MPC)は,システムの動的モデルを利用して,短時間の計画地平線上での最適化問題を解決することで,ロボット制御タスクに対する堅牢なソリューションを提供する。
本研究では,MPC(High-MPC)の深い高レベルポリシーを学習することにより,確率論的意思決定アプローチと人工ニューラルネットワークの一般化能力を活用する。
ロボットの局所的な観測に基づいて、訓練されたニューラルネットワークポリシーは、低レベルmpcコントローラのために適応的に高レベル決定変数を選択でき、ロボットの最適な制御コマンドを生成する。
まず,政策探索問題,特に確率的推論問題として,mpcの高水準決定変数の探索を定式化する。
この問題は閉形式解法で解くことができる。
第2に,高ダイナミック環境におけるオンラインハイパーパラメータ適応に有用なニューラルネットワーク高レベルポリシを学習するための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,提案手法を応用した自律型ロボットにオンライン適応を組み込むことの重要性を実証する。
我々は,従来のMPCでは困難な状況に対処できることを示す。
関連論文リスト
- Dropout MPC: An Ensemble Neural MPC Approach for Systems with Learned Dynamics [0.0]
そこで本研究では,モンテカルロのドロップアウト手法を学習システムモデルに応用した,サンプリングベースアンサンブルニューラルMPCアルゴリズムを提案する。
この手法は一般に複雑な力学を持つ不確実なシステムを対象としており、第一原理から派生したモデルは推論が難しい。
論文 参考訳(メタデータ) (2024-06-04T17:15:25Z) - Pontryagin Optimal Control via Neural Networks [19.546571122359534]
我々は,ニューラルネットワークをポントリャーギンの最大原理(PMP)と統合し,NN-PMP-Gradient の効率的なフレームワークを提案する。
結果として生じるコントローラは、未知の複雑な力学を持つシステムに実装することができる。
モデルフリーおよびモデルベース強化学習(RL)アルゴリズムと比較して, NN-PMP-Gradientは, 制御目的の観点から高いサンプル効率と性能を実現する。
論文 参考訳(メタデータ) (2022-12-30T06:47:03Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Adversarially Regularized Policy Learning Guided by Trajectory
Optimization [31.122262331980153]
本稿では,スムーズな制御ポリシーを学習するために,trajeCtory optimizAtion (VERONICA) でガイドされた適応正規化 pOlicy learNIng を提案する。
提案手法は,ニューラルポリシー学習のサンプル効率を向上し,各種障害に対するポリシーの堅牢性を高める。
論文 参考訳(メタデータ) (2021-09-16T00:02:11Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。