論文の概要: Guided Curriculum Learning for Walking Over Complex Terrain
- arxiv url: http://arxiv.org/abs/2010.03848v2
- Date: Mon, 1 Feb 2021 19:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:39:11.676604
- Title: Guided Curriculum Learning for Walking Over Complex Terrain
- Title(参考訳): 複雑な地形を歩むための指導カリキュラム学習
- Authors: Brendan Tidd, Nicolas Hudson, Akansel Cosgun
- Abstract要約: 本稿では,二足歩行のための深層強化学習政策を学習するための3段階カリキュラムを提案する。
シミュレーション実験において,本手法は5種類の地形に対して,歩行方針の学習に有効であることを示す。
- 参考スコア(独自算出の注目度): 2.4192504570921622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable bipedal walking over complex terrain is a challenging problem, using
a curriculum can help learning. Curriculum learning is the idea of starting
with an achievable version of a task and increasing the difficulty as a success
criteria is met. We propose a 3-stage curriculum to train Deep Reinforcement
Learning policies for bipedal walking over various challenging terrains. In the
first stage, the agent starts on an easy terrain and the terrain difficulty is
gradually increased, while forces derived from a target policy are applied to
the robot joints and the base. In the second stage, the guiding forces are
gradually reduced to zero. Finally, in the third stage, random perturbations
with increasing magnitude are applied to the robot base, so the robustness of
the policies are improved. In simulation experiments, we show that our approach
is effective in learning walking policies, separate from each other, for five
terrain types: flat, hurdles, gaps, stairs, and steps. Moreover, we demonstrate
that in the absence of human demonstrations, a simple hand designed walking
trajectory is a sufficient prior to learn to traverse complex terrain types. In
ablation studies, we show that taking out any one of the three stages of the
curriculum degrades the learning performance.
- Abstract(参考訳): 複雑な地形の上を歩くという信頼性の高い二足歩行は難しい問題だ。
カリキュラム学習とは、タスクの達成可能なバージョンから始めて、成功基準が満たされるにつれて難易度を高めるという考え方である。
本稿では,二足歩行のための深層強化学習政策を学習するための3段階カリキュラムを提案する。
第1段階では、エージェントは容易な地形上で開始され、徐々に地形の難しさが増し、目標方針から導出される力がロボット関節およびベースに適用される。
第2段階では、誘導力は徐々にゼロに減少する。
最後に、第3段階では、ロボットベースに大きさが大きくなるランダムな摂動が適用され、ポリシーの堅牢性が改善される。
シミュレーション実験では, 平面, ハードル, 隙間, 階段, 階段の5種類の地形に対して, 歩行方針の学習に有効であることを示した。
さらに,人間による実演の欠如により,複雑な地形を横断することを学ぶには,簡単な手で設計した歩行路が十分であることを示す。
アブレーション研究において,カリキュラムの3段階のいずれかを選択すると,学習性能が低下することが示された。
関連論文リスト
- Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - You Only Live Once: Single-Life Reinforcement Learning [124.1738675154651]
多くの現実世界の状況では、そのタスクを繰り返し実行できるポリシーを学ぶことではなく、単一のトライアルで1回だけ新しいタスクを成功させることが目的である。
エージェントが介入なしにひとつのエピソード内でタスクを完了しなければならない問題設定を形式化する。
本稿では,分散マッチング戦略を用いたQ$-weighted adversarial Learning (QWALE)を提案する。
論文 参考訳(メタデータ) (2022-10-17T09:00:11Z) - Vision-Based Mobile Robotics Obstacle Avoidance With Deep Reinforcement
Learning [49.04274612323564]
障害物回避は、移動ロボットの自律ナビゲーションのための根本的かつ困難な問題です。
本稿では,ロボットが単一眼カメラにのみ依存しなければならない単純な3D環境における障害物回避の問題を検討する。
データ駆動型エンドツーエンドディープラーニングアプローチとして,障害回避問題に取り組む。
論文 参考訳(メタデータ) (2021-03-08T13:05:46Z) - ALLSTEPS: Curriculum-driven Learning of Stepping Stone Skills [8.406171678292964]
ステップストーンのロコモーションに対する良い解決策を見つけることは、アニメーションとロボティクスにとって長年、そして基本的な課題である。
我々は、強化学習を用いたこの難しい問題に対する完全な学習ソリューションを提案する。
シミュレーションされた人間キャラクタ, 現実的な二足歩行ロボットシミュレーション, モンスターキャラクタに対して, それぞれのケースにおいて, 頑健で可塑性な動きが生じる。
論文 参考訳(メタデータ) (2020-05-09T00:16:38Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z) - Obstacle Tower Without Human Demonstrations: How Far a Deep Feed-Forward
Network Goes with Reinforcement Learning [1.699937048243873]
オブスタークルタワーチャレンジ(Obstacle Tower Challenge)は、手続き的に生成されたレベルのチェーンをマスターするタスクである。
競争力のある(第7位)アプローチを提示するが,Deep Reinforcement Learningによって完全にゼロから開始する。
論文 参考訳(メタデータ) (2020-04-01T16:55:51Z) - Learning to Generalize Across Long-Horizon Tasks from Human
Demonstrations [52.696205074092006]
Generalization Through Imitation (GTI) は、2段階のオフライン模倣学習アルゴリズムである。
GTIは、状態空間の共通領域で異なるタスクの軌道を示す構造を利用する。
GTIの第1段階では,異なる実演軌跡から行動を構成する能力を持つために交差点を利用する政策を訓練する。
GTIの第2段階では、ゴール指向エージェントをトレーニングして、新しいスタートとゴールの設定を一般化する。
論文 参考訳(メタデータ) (2020-03-13T02:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。