論文の概要: Imitation Learning from MPC for Quadrupedal Multi-Gait Control
- arxiv url: http://arxiv.org/abs/2103.14331v1
- Date: Fri, 26 Mar 2021 08:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:34:14.253579
- Title: Imitation Learning from MPC for Quadrupedal Multi-Gait Control
- Title(参考訳): 四足歩行制御のためのmpcからの模倣学習
- Authors: Alexander Reske, Jan Carius, Yuntao Ma, Farbod Farshidian, Marco
Hutter
- Abstract要約: 本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
- 参考スコア(独自算出の注目度): 63.617157490920505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a learning algorithm for training a single policy that imitates
multiple gaits of a walking robot. To achieve this, we use and extend MPC-Net,
which is an Imitation Learning approach guided by Model Predictive Control
(MPC). The strategy of MPC-Net differs from many other approaches since its
objective is to minimize the control Hamiltonian, which derives from the
principle of optimality. To represent the policies, we employ a
mixture-of-experts network (MEN) and observe that the performance of a policy
improves if each expert of a MEN specializes in controlling exactly one mode of
a hybrid system, such as a walking robot. We introduce new loss functions for
single- and multi-gait policies to achieve this kind of expert selection
behavior. Moreover, we benchmark our algorithm against Behavioral Cloning and
the original MPC implementation on various rough terrain scenarios. We validate
our approach on hardware and show that a single learned policy can replace its
teacher to control multiple gaits.
- Abstract(参考訳): 本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
そこで我々は,モデル予測制御 (MPC) が指導する模倣学習手法である MPC-Net の利用と拡張を行う。
MPC-Netの戦略は、最適性の原理から導かれる制御ハミルトニアンを最小化することが目的であるため、他の多くのアプローチとは異なる。
政策を表現するために,混合専門家ネットワーク(men)を用いて,歩行ロボットなどのハイブリッドシステムの正確に1つのモードを制御することを専門とする男性の専門家が,政策の性能向上を観察する。
本稿では,このような専門家選択行動を実現するために,単一・複数ゲットポリシーに対する新たな損失関数を提案する。
さらに,様々な地形シナリオにおける行動クローン化とmpc実装に対するアルゴリズムのベンチマークを行った。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示す。
関連論文リスト
- Learning Pareto Set for Multi-Objective Continuous Robot Control [7.853788769559891]
本研究では,高次元ポリシーパラメータ空間におけるパレート集合の連続表現を学習する,単純かつ資源効率のMORLアルゴリズムを提案する。
実験結果から,本手法はトレーニングパラメータを最小にすることで,最高の総合的な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-06-27T06:31:51Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Human-in-the-Loop Policy Optimization for Preference-Based
Multi-Objective Reinforcement Learning [13.627087954965695]
好みに基づくMORLのためのHuman-in-the-loopポリシー最適化フレームワークを提案する。
本手法は,事前知識を必要とせずに,DMの暗黙の選好情報を積極的に学習する。
我々は従来の3つのMORLアルゴリズムと4つの最先端の選好に基づくMORLアルゴリズムに対するアプローチを評価する。
論文 参考訳(メタデータ) (2024-01-04T09:17:53Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。