論文の概要: Open-Ended Learning Strategies for Learning Complex Locomotion Skills
- arxiv url: http://arxiv.org/abs/2206.06796v1
- Date: Tue, 14 Jun 2022 12:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 19:13:11.425636
- Title: Open-Ended Learning Strategies for Learning Complex Locomotion Skills
- Title(参考訳): 複雑なロコモーションスキルを学ぶためのオープンディビジョン学習戦略
- Authors: Fangqin Zhou, Joaquin Vanschoren
- Abstract要約: 複雑な設定に移行する前に、単純な設定でトレーニングエージェントがトレーニングプロセスを改善することが示されている。
我々は、より複雑なエージェントを3次元の複雑な地形で効率的に歩けるように訓練するために、拡張ペアオープンエンドトレイルブラザー(ePOET)アプローチを適用した。
実験の結果,新たに生成された3次元地形は,学習の指導に十分な多様性と複雑さを有しており,ePOETはこれらの地形における複雑な移動能力の習得に成功していることがわかった。
- 参考スコア(独自算出の注目度): 4.035753155957698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Teaching robots to learn diverse locomotion skills under complex
three-dimensional environmental settings via Reinforcement Learning (RL) is
still challenging. It has been shown that training agents in simple settings
before moving them on to complex settings improves the training process, but so
far only in the context of relatively simple locomotion skills. In this work,
we adapt the Enhanced Paired Open-Ended Trailblazer (ePOET) approach to train
more complex agents to walk efficiently on complex three-dimensional terrains.
First, to generate more rugged and diverse three-dimensional training terrains
with increasing complexity, we extend the Compositional Pattern Producing
Networks - Neuroevolution of Augmenting Topologies (CPPN-NEAT) approach and
include randomized shapes. Second, we combine ePOET with Soft Actor-Critic
off-policy optimization, yielding ePOET-SAC, to ensure that the agent could
learn more diverse skills to solve more challenging tasks. Our experimental
results show that the newly generated three-dimensional terrains have
sufficient diversity and complexity to guide learning, that ePOET successfully
learns complex locomotion skills on these terrains, and that our proposed
ePOET-SAC approach slightly improves upon ePOET.
- Abstract(参考訳): ロボットは、強化学習(RL)を通して複雑な3次元環境条件下で多様な移動スキルを学ぶことが依然として難しい。
複雑な設定に移行する前に簡単な設定でトレーニングエージェントがトレーニングプロセスを改善できることが示されているが、現時点では比較的単純なロコモーションスキルのコンテキストのみである。
本研究では、より複雑なエージェントを訓練し、複雑な三次元地形を効率的に歩けるように、拡張ペアオープンエンドトレイルブラザー(ePOET)アプローチを適用する。
まず,より頑丈で多様な3次元トレーニング地形を生成するため,構成パターン生成ネットワーク(cppn-neatアプローチの神経進化)を拡張し,ランダムな形状を含む。
第二に、ePOETとSoft Actor-Criticのオフ政治最適化を組み合わせて、ePOET-SACを生成し、エージェントがより困難なタスクを解決するために、より多様なスキルを学べるようにします。
実験の結果,新たに生成された3次元地形は,学習の指導に十分な多様性と複雑さを有し,ePOETはこれらの地形における複雑な移動能力の習得に成功し,提案したePOET-SACアプローチはePOETによりわずかに改善されていることがわかった。
関連論文リスト
- TaCIE: Enhancing Instruction Comprehension in Large Language Models through Task-Centred Instruction Evolution [27.949846287419998]
TaCIEは、単に進化したシード命令から、よりダイナミックで包括的な要素の組み合わせへと、命令の進化を再定義する。
複数の領域にまたがってTaCIEを適用することで、これらの進化した命令で微調整されたLLMは、従来の手法で調整された命令よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-09-18T10:06:28Z) - Hierarchical and Decoupled BEV Perception Learning Framework for Autonomous Driving [52.808273563372126]
本稿では,基本認識モジュールとユーザフレンドリなグラフィカルインタフェースのライブラリの提供を目的とした,新しい階層的BEV知覚パラダイムを提案する。
我々は,大規模公開データセットと合理化開発プロセスを効果的に活用するために,Pretrain-Finetune戦略を実行している。
また、マルチモジュールラーニング(MML)アプローチを提案し、複数のモデルの相乗的かつ反復的な訓練により性能を向上させる。
論文 参考訳(メタデータ) (2024-07-17T11:17:20Z) - Deep Reinforcement Learning for Autonomous Vehicle Intersection
Navigation [0.24578723416255746]
強化学習アルゴリズムは、これらの課題に対処するための有望なアプローチとして登場した。
そこで本研究では,低コスト単一エージェントアプローチを用いて,T断面積を効率よく安全にナビゲートする問題に対処する。
提案手法により,AVはT断面積を効果的にナビゲートし,走行遅延,衝突最小化,総コストの面で従来の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-09-30T10:54:02Z) - Infer and Adapt: Bipedal Locomotion Reward Learning from Demonstrations
via Inverse Reinforcement Learning [5.246548532908499]
本稿では、複雑な地形上の二足歩行問題を解決するために、最先端の逆強化学習(IRL)技術を導入する。
専門家の報酬関数を学習するためのアルゴリズムを提案し、その後、学習関数を解析する。
両足歩行ポリシーを推定報酬関数で訓練することで、視認できない地形での歩行性能が向上することが実証的に実証された。
論文 参考訳(メタデータ) (2023-09-28T00:11:06Z) - A Preliminary Study of the Intrinsic Relationship between Complexity and
Alignment [90.7443414448245]
制御可能な方法で命令の複雑さを体系的に強化するツリーインストラクションを提案する。
命令のセマンティックツリーに指定された数のノードを追加することで、新しい命令データを得るだけでなく、修正された命令の難易度を制御することもできる。
論文 参考訳(メタデータ) (2023-08-10T16:58:51Z) - Learning and Adapting Agile Locomotion Skills by Transferring Experience [71.8926510772552]
本稿では,既存のコントローラから新しいタスクを学習するために経験を移譲することで,複雑なロボティクススキルを訓練するためのフレームワークを提案する。
提案手法は,複雑なアジャイルジャンプ行動の学習,後肢を歩いたまま目標地点への移動,新しい環境への適応を可能にする。
論文 参考訳(メタデータ) (2023-04-19T17:37:54Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Learning Robotic Manipulation Skills Using an Adaptive Force-Impedance
Action Space [7.116986445066885]
強化学習は、様々な困難な意思決定タスクにおいて、有望な結果をもたらしました。
高速な人間のような適応制御手法は複雑なロボットの相互作用を最適化するが、非構造化タスクに必要なマルチモーダルフィードバックを統合することができない。
本稿では,階層的学習と適応アーキテクチャにおける学習問題を要因として,両世界を最大限に活用することを提案する。
論文 参考訳(メタデータ) (2021-10-19T12:09:02Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Complex Skill Acquisition Through Simple Skill Imitation Learning [0.0]
本稿では,ニューラルネットワークのポリシーをシンプルで学習しやすいスキルで学習するアルゴリズムを提案する。
複雑なタスクが単純なサブタスクの同時(そしておそらくはシーケンシャルな)組み合わせである場合に焦点を当てる。
我々のアルゴリズムは、トレーニング速度と全体的な性能において、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2020-07-20T17:06:26Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。