論文の概要: Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation
- arxiv url: http://arxiv.org/abs/2303.15688v1
- Date: Tue, 28 Mar 2023 02:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:39:40.479069
- Title: Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation
- Title(参考訳): tube mpc誘導データ拡張を用いたロバスト適応ポリシーの効率的な深層学習
- Authors: Tong Zhao, Andrea Tagliabue, Jonathan P. How
- Abstract要約: 既存のロバストで適応的なコントローラは、重いオンライン計算を犠牲にして素晴らしいパフォーマンスを達成することができる。
MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。
我々は、MPCから堅牢なポリシー学習のための既存の効率的なILアルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学ぶことができる。
- 参考スコア(独自算出の注目度): 46.04740301634034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of agile autonomous systems in challenging, unstructured
environments requires adaptation capabilities and robustness to uncertainties.
Existing robust and adaptive controllers, such as the ones based on MPC, can
achieve impressive performance at the cost of heavy online onboard
computations. Strategies that efficiently learn robust and onboard-deployable
policies from MPC have emerged, but they still lack fundamental adaptation
capabilities. In this work, we extend an existing efficient IL algorithm for
robust policy learning from MPC with the ability to learn policies that adapt
to challenging model/environment uncertainties. The key idea of our approach
consists in modifying the IL procedure by conditioning the policy on a learned
lower-dimensional model/environment representation that can be efficiently
estimated online. We tailor our approach to the task of learning an adaptive
position and attitude control policy to track trajectories under challenging
disturbances on a multirotor. Our evaluation is performed in a high-fidelity
simulation environment and shows that a high-quality adaptive policy can be
obtained in about $1.3$ hours. We additionally empirically demonstrate rapid
adaptation to in- and out-of-training-distribution uncertainties, achieving a
$6.1$ cm average position error under a wind disturbance that corresponds to
about $50\%$ of the weight of the robot and that is $36\%$ larger than the
maximum wind seen during training.
- Abstract(参考訳): 困難な非構造環境でのアジャイルな自律システムの展開には、不確実性への適応性と堅牢性が必要です。
既存のロバストでアダプティブなコントローラ(mpcベースのコントローラなど)は、オンライン上の重い計算コストで素晴らしいパフォーマンスを実現できます。
MPCからの堅牢でデプロイ可能なポリシを効率的に学習する戦略が登場したが、基本的な適応能力は欠如している。
本研究では,MPC からの堅牢な政策学習のための既存の効率的な IL アルゴリズムを拡張し,挑戦的モデル/環境不確実性に適応する政策学習能力を提供する。
提案手法の鍵となる考え方は,オンラインで効率的に推定できる学習された低次元モデル/環境表現にポリシーを条件付けることで,IL手順を変更することである。
我々は,マルチロケータ上での課題外乱下での軌跡追跡のための適応的位置と姿勢制御ポリシーの学習課題へのアプローチを調整した。
評価は高忠実度シミュレーション環境で行われ、高品質な適応ポリシーを約1.3ドルの時間で得られることを示す。
また, トレーニング中の最大風速よりも約50\%, 最大風速よりも36\%の風乱下で平均位置誤差6.1$cmを達成し, トレーニング中およびトレーニング外分布の不確実性への迅速な適応を実証的に実証した。
関連論文リスト
- Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Enabling Efficient, Reliable Real-World Reinforcement Learning with
Approximate Physics-Based Models [10.472792899267365]
我々は,実世界のデータを用いたロボット学習のための,効率的かつ信頼性の高いポリシー最適化戦略の開発に重点を置いている。
本稿では,新しい政策勾配に基づく政策最適化フレームワークを提案する。
提案手法では,実世界のデータの数分で,正確な制御戦略を確実に学習できることが示されている。
論文 参考訳(メタデータ) (2023-07-16T22:36:36Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Learning Model Predictive Controllers with Real-Time Attention for
Real-World Navigation [34.86856430694435]
本稿では,模擬学習の利点とシステム制約の頑健な処理を併用した,暗黙的な制御ポリシーの新たなクラスを提案する。
Performer-MPCと呼ばれる我々の手法は、Performerが提供する視覚コンテキストの埋め込みによってパラメータ化された学習コスト関数を使用する。
標準的なMPCポリシーと比較して、Performer-MPCは、乱雑な環境で到達した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。
論文 参考訳(メタデータ) (2022-09-22T04:57:58Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Robustifying Reinforcement Learning Policies with $\mathcal{L}_1$
Adaptive Control [7.025818894763949]
強化学習(RL)ポリシーは、動的変動が存在するため、新しい/摂動環境において失敗する可能性がある。
本稿では, 適応制御を$mathcalL_1$で行うことで, 事前学習した非ロバストRLポリシーを堅牢化する手法を提案する。
提案手法は,シミュレータでも実世界でも,標準(非ロバスト)方式で訓練されたRLポリシーのロバスト性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-04T04:28:46Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。