論文の概要: Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation
- arxiv url: http://arxiv.org/abs/2303.15688v2
- Date: Mon, 2 Oct 2023 17:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:58:37.277239
- Title: Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation
- Title(参考訳): tube mpc誘導データ拡張を用いたロバスト適応ポリシーの効率的な深層学習
- Authors: Tong Zhao, Andrea Tagliabue, Jonathan P. How
- Abstract要約: 既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
- 参考スコア(独自算出の注目度): 42.66792060626531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of agile autonomous systems in challenging, unstructured
environments requires adaptation capabilities and robustness to uncertainties.
Existing robust and adaptive controllers, such as those based on model
predictive control (MPC), can achieve impressive performance at the cost of
heavy online onboard computations. Strategies that efficiently learn robust and
onboard-deployable policies from MPC have emerged, but they still lack
fundamental adaptation capabilities. In this work, we extend an existing
efficient Imitation Learning (IL) algorithm for robust policy learning from MPC
with the ability to learn policies that adapt to challenging model/environment
uncertainties. The key idea of our approach consists in modifying the IL
procedure by conditioning the policy on a learned lower-dimensional
model/environment representation that can be efficiently estimated online. We
tailor our approach to the task of learning an adaptive position and attitude
control policy to track trajectories under challenging disturbances on a
multirotor. Evaluations in simulation show that a high-quality adaptive policy
can be obtained in about $1.3$ hours. We additionally empirically demonstrate
rapid adaptation to in- and out-of-training-distribution uncertainties,
achieving a $6.1$ cm average position error under wind disturbances that
correspond to about $50\%$ of the weight of the robot, and that are $36\%$
larger than the maximum wind seen during training.
- Abstract(参考訳): 困難な非構造環境でのアジャイルな自律システムの展開には、不確実性への適応性と堅牢性が必要です。
モデル予測制御(mpc)に基づいた既存のロバストで適応性のあるコントローラは、オンライン上の重い計算コストを犠牲にして素晴らしい性能を達成できる。
MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。
本研究は,MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し,挑戦的なモデル/環境の不確実性に適応したポリシー学習を可能にする。
提案手法の鍵となる考え方は,オンラインで効率的に推定できる学習された低次元モデル/環境表現にポリシーを条件付けることで,IL手順を変更することである。
我々は,マルチロケータ上での課題外乱下での軌跡追跡のための適応的位置と姿勢制御ポリシーの学習課題へのアプローチを調整した。
シミュレーションによる評価は、高品質な適応ポリシーが約1.3ドル時間で得られることを示している。
さらに,トレーニング中の最大風速よりも約50\%,最大風速より36\%の風乱下での平均位置誤差を6.1$cm達成し,トレーニング内およびトレーニング外分布の不確実性への迅速な適応を実証的に実証した。
関連論文リスト
- Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Model Predictive Controllers with Real-Time Attention for
Real-World Navigation [34.86856430694435]
本稿では,模擬学習の利点とシステム制約の頑健な処理を併用した,暗黙的な制御ポリシーの新たなクラスを提案する。
Performer-MPCと呼ばれる我々の手法は、Performerが提供する視覚コンテキストの埋め込みによってパラメータ化された学習コスト関数を使用する。
標準的なMPCポリシーと比較して、Performer-MPCは、乱雑な環境で到達した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。
論文 参考訳(メタデータ) (2022-09-22T04:57:58Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control [7.025818894763949]
強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T04:28:46Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。