論文の概要: Learning When to Switch: Composing Controllers to Traverse a Sequence of
Terrain Artifacts
- arxiv url: http://arxiv.org/abs/2011.00440v2
- Date: Wed, 29 Sep 2021 13:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 23:02:21.691297
- Title: Learning When to Switch: Composing Controllers to Traverse a Sequence of
Terrain Artifacts
- Title(参考訳): 切り替える時の学習: 地形のアーティファクトのシーケンスをトラバースするコントローラを構成する
- Authors: Brendan Tidd, Nicolas Hudson, Akansel Cosgun, Jurgen Leitner
- Abstract要約: Deep Reinforcement Learning (DRL)は手作りの制御設計に代わる有望な代替品である。
DRLポリシーは、隣接するポリシー間で重複する領域がほとんどあるいは全くない複雑な振る舞いをもたらす可能性がある。
我々は,複数のDRLポリシを開発し,各地形条件を相互に関連付けるとともに,相互に重複するポリシーを確実にする。
次に、他の方針から切り換える確率を推定する宛先ポリシーのネットワークを訓練する。
- 参考スコア(独自算出の注目度): 2.1525499774103087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Legged robots often use separate control policiesthat are highly engineered
for traversing difficult terrain suchas stairs, gaps, and steps, where
switching between policies isonly possible when the robot is in a region that
is commonto adjacent controllers. Deep Reinforcement Learning (DRL)is a
promising alternative to hand-crafted control design,though typically requires
the full set of test conditions to beknown before training. DRL policies can
result in complex(often unrealistic) behaviours that have few or no
overlappingregions between adjacent policies, making it difficult to
switchbehaviours. In this work we develop multiple DRL policieswith Curriculum
Learning (CL), each that can traverse asingle respective terrain condition,
while ensuring an overlapbetween policies. We then train a network for each
destinationpolicy that estimates the likelihood of successfully switchingfrom
any other policy. We evaluate our switching methodon a previously unseen
combination of terrain artifacts andshow that it performs better than heuristic
methods. Whileour method is trained on individual terrain types, it
performscomparably to a Deep Q Network trained on the full set ofterrain
conditions. This approach allows the development ofseparate policies in
constrained conditions with embedded priorknowledge about each behaviour, that
is scalable to any numberof behaviours, and prepares DRL methods for
applications inthe real world
- Abstract(参考訳): 脚のあるロボットは、階段、隙間、階段などの困難な地形を横断するために高度に設計された個別の制御ポリシーを使用することが多い。
深層強化学習 (drl) は手作りの制御設計に代わる有望な代替案であるが、通常、訓練前に知るべきテスト条件の完全なセットを必要とする。
drlポリシーは、隣接するポリシー間で重複する部分が少なく、あるいは全くない複雑な(しばしば非現実的な)振る舞いを生じさせます。
本研究では,複数のDRLポリシをカリキュラム学習(CL)を用いて開発し,各地形条件を相互に関連付けるとともに,重複度を確保する。
そして、他のポリシーからうまく切り替える確率を見積もる各宛先政治のためにネットワークをトレーニングします。
これまでに見つからなかった地形アーチファクトの組み合わせの切り替え手法を評価し,ヒューリスティック手法よりも優れた性能を示す。
この手法は個々の地形タイプで訓練されるが、全地形条件で訓練されたディープQネットワークと同等に性能を発揮する。
このアプローチは、各振る舞いについて事前知識を組み込んだ制約条件下でポリシーを分離することを可能にし、あらゆる振る舞いにスケーラブルであり、現実のアプリケーションのためのdrlメソッドを準備する。
関連論文リスト
- Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Mildly Constrained Evaluation Policy for Offline Reinforcement Learning [12.465177007346176]
オフライン強化学習(RL)手法は、行動方針に忠実に従うためにポリシーに制約を課す。
我々は、より制約のあるテキストターゲットポリシーを用いて、テスト時間推定のためのtextitMildly Constrained Evaluation Policy (MCEP) を提案する。
論文 参考訳(メタデータ) (2023-06-06T13:43:09Z) - TD3 with Reverse KL Regularizer for Offline Reinforcement Learning from
Mixed Datasets [118.22975463000928]
エージェントが複数の行動ポリシーをロールアウトすることで収集したデータセットから学習する必要があるオフライン強化学習(RL)について考察する。
1) RL信号の最適化と行動クローニング(BC)信号の最適なトレードオフは、異なる行動ポリシーによって引き起こされる行動カバレッジの変化によって異なる状態に変化する。
本稿では,TD3アルゴリズムに基づくBC正規化器として,適応重み付き逆KL(Kulback-Leibler)分散を用いることにより,両課題に対処する。
論文 参考訳(メタデータ) (2022-12-05T09:36:23Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Learning a subspace of policies for online adaptation in Reinforcement
Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。
訓練条件のバリエーションによく適合するRL法を開発する必要がある。
本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文 参考訳(メタデータ) (2021-10-11T11:43:34Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Learning Setup Policies: Reliable Transition Between Locomotion
Behaviours [2.5119455331413376]
事前訓練された方針間の軌道を橋渡しする設定方針を訓練する新しい方法を開発する。
提案手法は,1つの方針が失敗してタスクを学習し,事前訓練済みのポリシーを設定せずに切り替える,という難易度の高い跳躍地形をシミュレートしたトラバースで実証する。
論文 参考訳(メタデータ) (2021-01-23T01:17:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。