論文の概要: GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts
- arxiv url: http://arxiv.org/abs/2305.19111v1
- Date: Tue, 30 May 2023 15:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 15:33:52.190870
- Title: GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts
- Title(参考訳): GAN-MPC: パラメータ化コスト関数を用いた学習モデル予測制御
- Authors: Returaj Burnwal, Anirban Santara, Nirav P. Bhatt, Balaraman Ravindran,
Gaurav Aggarwal
- Abstract要約: 本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 14.291720751625585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model predictive control (MPC) is a popular approach for trajectory
optimization in practical robotics applications. MPC policies can optimize
trajectory parameters under kinodynamic and safety constraints and provide
guarantees on safety, optimality, generalizability, interpretability, and
explainability. However, some behaviors are complex and it is difficult to
hand-craft an MPC objective function. A special class of MPC policies called
Learnable-MPC addresses this difficulty using imitation learning from expert
demonstrations. However, they require the demonstrator and the imitator agents
to be identical which is hard to satisfy in many real world applications of
robotics. In this paper, we address the practical problem of training
Learnable-MPC policies when the demonstrator and the imitator do not share the
same dynamics and their state spaces may have a partial overlap. We propose a
novel approach that uses a generative adversarial network (GAN) to minimize the
Jensen-Shannon divergence between the state-trajectory distributions of the
demonstrator and the imitator. We evaluate our approach on a variety of
simulated robotics tasks of DeepMind Control suite and demonstrate the efficacy
of our approach at learning the demonstrator's behavior without having to copy
their actions.
- Abstract(参考訳): モデル予測制御(MPC)は、実用的なロボット工学応用における軌道最適化の一般的なアプローチである。
MPCポリシーは、キノダイナミックおよび安全制約の下で軌道パラメータを最適化し、安全性、最適性、一般化可能性、解釈可能性、説明可能性に関する保証を提供する。
しかし、いくつかの動作は複雑であり、mpcの目的関数を手作りすることは困難である。
Learnable-MPCと呼ばれるMPCポリシーの特別なクラスは、専門家によるデモンストレーションから模倣学習を使用することでこの問題に対処する。
しかし、ロボット工学の現実的な応用の多くでは満足できないような、デモレーターと模倣エージェントを同一にする必要がある。
本稿では,実証者と模倣者が同じダイナミクスを共有せず,その状態空間が部分的に重複している場合の学習可能MPCポリシーの実践的問題に対処する。
本稿では,GAN(Generative Adversarial Network)を用いて,デモンストレータと模倣者の状態-軌道分布間のジェンセン-シャノンのばらつきを最小化する手法を提案する。
我々は、DeepMind Controlスイートの様々なロボットタスクに対するアプローチを評価し、その動作をコピーすることなく、実証者の振る舞いを学習するためのアプローチの有効性を実証した。
関連論文リスト
- Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Spatiotemporal Costmap Inference for MPC via Deep Inverse Reinforcement
Learning [27.243603228431564]
目標条件付き時間報酬関数を学習するIRLRLアルゴリズムを提案する。
結果として生じるコストマップは、Model Predictive Controllers (MPC) によってタスクの実行に使用される。
論文 参考訳(メタデータ) (2022-01-17T17:36:29Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。