論文の概要: Learning Setup Policies: Reliable Transition Between Locomotion
Behaviours
- arxiv url: http://arxiv.org/abs/2101.09391v1
- Date: Sat, 23 Jan 2021 01:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-20 15:59:23.603781
- Title: Learning Setup Policies: Reliable Transition Between Locomotion
Behaviours
- Title(参考訳): セットアップポリシーの学習: 移動行動間の信頼できる遷移
- Authors: Brendan Tidd, Nicolas Hudson, Akansel Cosgun, Jurgen Leitner
- Abstract要約: 事前訓練された方針間の軌道を橋渡しする設定方針を訓練する新しい方法を開発する。
提案手法は,1つの方針が失敗してタスクを学習し,事前訓練済みのポリシーを設定せずに切り替える,という難易度の高い跳躍地形をシミュレートしたトラバースで実証する。
- 参考スコア(独自算出の注目度): 2.5119455331413376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic platforms that operate over manyunique terrain conditions typically
require multiple controllers.To transition safely between controllers, there
must be anoverlap of states between adjacent controllers. We developa novel
method for training Setup Policies that bridge thetrajectories between
pre-trained Deep Reinforcement Learning(DRL) policies. We demonstrate our
method with a simulatedbiped traversing a difficult jump terrain, where a
single policyfails to learn the task, and switching between pre-trainedpolicies
without Setup Policies also fails. We perform anablation of key components of
our system, and show thatour method outperforms others that learn transition
policies.We demonstrate our method with several difficult and diverseterrain
types, and show that we can use Setup Policies as partof a modular control
suite to successfully traverse a sequence ofcomplex terrains. We show that
using Setup Policies improvesthe success rate for traversing a single difficult
jump terrain(from 1.5%success rate without Setup Policies to 82%), and
asequence of various terrains (from 6.5%without Setup Policiesto 29.1%).
- Abstract(参考訳): 多様地形上で動作する動的プラットフォームは、一般的に複数のコントローラを必要とするが、コントローラ間で安全に遷移するためには、隣接するコントローラ間で状態のオーバーラップが必要となる。
本研究では,事前学習した深層強化学習(DRL)ポリシー間の軌道を橋渡しする設定ポリシーの学習方法を開発した。
提案手法は,1つの政策が課題を学習できない,設定ポリシーなしで事前訓練された都市間を切り替える,困難なジャンプ地形を横断するシミュレートバイドで実証する。
我々は,システムの主要コンポーネントのアナレーションを行い,遷移方針を学習する他のコンポーネントよりも優れていることを示すとともに,複雑な地形の連続を横断するモジュール制御スイートの一部として,セットアップポリシーを使用できることを示す。
セットアップポリシーを用いることで、単一の難しいジャンプ地形を横断する成功率(セットアップポリシーなしでの1.5%成功率から82%)と、さまざまな地形(セットアップポリシーなしでの6.5%から29.1%)が向上することを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot
Policy Imitation [45.312333134810665]
数発の模倣に取り組む最先端の手法はメタラーニングに依存している。
近年の研究では、ファインチューナーは画像分類タスクにおいてメタラーナーよりも優れていることが示されている。
人気の高いOpenAI-Gym MuJoCo環境の154種類からなるiMuJoCoと呼ばれるオープンソースデータセットをリリースする。
論文 参考訳(メタデータ) (2023-06-23T15:29:15Z) - Composite Motion Learning with Task Control [0.6882042556551609]
物理シミュレーション文字に対する合成およびタスク駆動動作制御のための深層学習法を提案する。
我々は,複数の識別器をGANライクな設定で使用することにより,複数の参照動作から,特定の身体部分に対する分離された動作を同時に,直接的に学習する。
本稿では,複合動作模倣と多目的制御の両方を含む多目的課題に対するアプローチの適用性を示す。
論文 参考訳(メタデータ) (2023-05-05T05:02:41Z) - Configuration Path Control [0.0]
本稿では,構成経路の空間における制御ポリシーの安定化手法を提案する。
トレーニング後に適用され、トレーニング中に生成されたデータにのみ依存する。
摂動振幅で測定すると,安定性は2倍から4倍に向上することがわかった。
論文 参考訳(メタデータ) (2022-04-05T20:11:39Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Training Transition Policies via Distribution Matching for Complex Tasks [7.310043452300736]
階層的強化学習は、複雑な課題を解決するための単純なタスクに対して、低レベルのポリシーを活用することを目指している。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
従来の手法よりも成功率の高い下級政策を円滑に結び付けることを示す。
論文 参考訳(メタデータ) (2021-10-08T19:57:37Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Learning When to Switch: Composing Controllers to Traverse a Sequence of
Terrain Artifacts [2.1525499774103087]
Deep Reinforcement Learning (DRL)は手作りの制御設計に代わる有望な代替品である。
DRLポリシーは、隣接するポリシー間で重複する領域がほとんどあるいは全くない複雑な振る舞いをもたらす可能性がある。
我々は,複数のDRLポリシを開発し,各地形条件を相互に関連付けるとともに,相互に重複するポリシーを確実にする。
次に、他の方針から切り換える確率を推定する宛先ポリシーのネットワークを訓練する。
論文 参考訳(メタデータ) (2020-11-01T06:34:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。