論文の概要: Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning
- arxiv url: http://arxiv.org/abs/2210.10127v1
- Date: Tue, 18 Oct 2022 19:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:31:46.388211
- Title: Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning
- Title(参考訳): 頑健で効率的な感覚運動政策学習のための出力フィードバックチューブmpc誘導データ拡張
- Authors: Andrea Tagliabue, Jonathan P. How
- Abstract要約: シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
- 参考スコア(独自算出の注目度): 49.05174527668836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) can generate computationally efficient sensorimotor
policies from demonstrations provided by computationally expensive model-based
sensing and control algorithms. However, commonly employed IL methods are often
data-inefficient, requiring the collection of a large number of demonstrations
and producing policies with limited robustness to uncertainties. In this work,
we combine IL with an output feedback robust tube model predictive controller
(RTMPC) to co-generate demonstrations and a data augmentation strategy to
efficiently learn neural network-based sensorimotor policies. Thanks to the
augmented data, we reduce the computation time and the number of demonstrations
needed by IL, while providing robustness to sensing and process uncertainty. We
tailor our approach to the task of learning a trajectory tracking visuomotor
policy for an aerial robot, leveraging a 3D mesh of the environment as part of
the data augmentation process. We numerically demonstrate that our method can
learn a robust visuomotor policy from a single demonstration--a two-orders of
magnitude improvement in demonstration efficiency compared to existing IL
methods.
- Abstract(参考訳): 模倣学習(il)は、計算コストの高いモデルに基づくセンシングと制御アルゴリズムによるデモンストレーションから、計算効率のよいセンサモジュレータポリシを生成することができる。
しかし、一般的に使用されるilメソッドは、しばしばデータ非効率であり、大量のデモンストレーションの収集と、不確実性に対する堅牢性に制限されたポリシーの作成を必要とする。
本研究では,ILと出力フィードバック型ロバスト管モデル予測コントローラ(RTMPC)を組み合わせることで,ニューラルネットワークに基づくセンサモビリティポリシーを効率的に学習するデータ拡張戦略を提案する。
拡張データにより、ILに必要な計算時間とデモの数を減らすとともに、不確実性の検出と処理に堅牢性を提供します。
データ拡張プロセスの一環として環境の3次元メッシュを活用することで,航空機ロボットの軌道追従型ビジュモータポリシーを学習するタスクへの我々のアプローチを調整する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
関連論文リスト
- Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning [13.30562217252464]
実演強化学習(RL)に基づくロボットによる変形可能な物体操作の研究を行う。
RLの学習効率を向上させるため,複数の側面からの実演データの利用を向上し,HGCR-DDPGアルゴリズムを提案する。
新規な高次元ファジィ手法を用いて、ポイント選択を把握し、レインボーDDPGにおけるデータ駆動学習を強化するための洗練された行動閉鎖法と、シーケンシャルなポリシー学習戦略を用いる。
論文 参考訳(メタデータ) (2025-02-17T02:41:46Z) - AdaDemo: Data-Efficient Demonstration Expansion for Generalist Robotic Agent [75.91274222142079]
本研究では,汎用ロボットエージェントの学習を容易にするために,データ効率のよい方法で実演をスケールアップすることを目的とする。
AdaDemoは、デモデータセットを積極的に継続的に拡張することで、マルチタスクポリシー学習を改善するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-04-11T01:59:29Z) - Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs [42.220568722735095]
感性学習(IL)は資源集約型モデル予測制御器(MPC)から計算効率の高い感触者ポリシーを訓練できる
本稿では,ビジョンベースのポリシーを効率的に学習するデータ拡張(DA)戦略を提案する。
実演効率は80倍に向上し,現行のIL法に比べてトレーニング時間を50%削減した。
論文 参考訳(メタデータ) (2023-11-23T18:54:25Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - MoDem: Accelerating Visual Model-Based Reinforcement Learning with
Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。
モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。
本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文 参考訳(メタデータ) (2022-12-12T04:28:50Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。