論文の概要: Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC
- arxiv url: http://arxiv.org/abs/2109.09910v1
- Date: Tue, 21 Sep 2021 01:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 00:38:48.871836
- Title: Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC
- Title(参考訳): ロバストチューブMPCの模擬による効率的な指導政策探索
- Authors: Andrea Tagliabue, Dong-Ki Kim, Michael Everett, Jonathan P. How
- Abstract要約: 我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
- 参考スコア(独自算出の注目度): 36.3065978427856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a demonstration-efficient strategy to compress a computationally
expensive Model Predictive Controller (MPC) into a more computationally
efficient representation based on a deep neural network and Imitation Learning
(IL). By generating a Robust Tube variant (RTMPC) of the MPC and leveraging
properties from the tube, we introduce a data augmentation method that enables
high demonstration-efficiency, being capable to compensate the distribution
shifts typically encountered in IL. Our approach opens the possibility of
zero-shot transfer from a single demonstration collected in a nominal domain,
such as a simulation or a robot in a lab/controlled environment, to a domain
with bounded model errors/perturbations. Numerical and experimental evaluations
performed on a trajectory tracking MPC for a quadrotor show that our method
outperforms strategies commonly employed in IL, such as DAgger and Domain
Randomization, in terms of demonstration-efficiency and robustness to
perturbations unseen during training.
- Abstract(参考訳): 本稿では,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する実演効率の戦略を提案する。
mpcのロバストチューブ変種(rtmpc)を生成し、そのチューブから特性を活用することで、ilで典型的に発生する分布シフトを補償し、高いデモンストレーション効率を実現するデータ拡張法を提案する。
本手法は,シミュレーションやラボ制御環境におけるロボットなど,名目ドメインで収集された1つのデモから,境界付きモデルエラー/摂動領域へのゼロショット転送の可能性を開く。
四極子に対する軌道追跡MPCを用いて行った数値的および実験的評価により,本手法は,訓練中にみられない摂動に対する実演効率と頑健性の観点から,DAggerやDomain RandomizationなどのILで一般的に採用される戦略よりも優れていた。
関連論文リスト
- Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs [42.220568722735095]
感性学習(IL)は資源集約型モデル予測制御器(MPC)から計算効率の高い感触者ポリシーを訓練できる
本稿では,ビジョンベースのポリシーを効率的に学習するデータ拡張(DA)戦略を提案する。
実演効率は80倍に向上し,現行のIL法に比べてトレーニング時間を50%削減した。
論文 参考訳(メタデータ) (2023-11-23T18:54:25Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning [49.05174527668836]
シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2022-10-18T19:59:17Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。