論文の概要: Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2109.11978v1
- Date: Fri, 24 Sep 2021 14:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:02:07.119068
- Title: Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement
Learning
- Title(参考訳): 極端に並列な深層強化学習を用いた分節歩行学習
- Authors: Nikita Rudin, David Hoeller, Philipp Reist, and Marco Hutter
- Abstract要約: 我々は,1台のワークステーションGPU上で大規模並列処理を用いることで,実世界のロボットタスクの高速なポリシー生成を実現するトレーニングセットを提示し,研究する。
我々は,大規模並列システムにおける異なるトレーニングアルゴリズムコンポーネントが最終ポリシー性能とトレーニング時間に与える影響を分析し,議論する。
本稿では,何千ものシミュレーションロボットを並列に学習するのに適した,ゲームに触発された新しいカリキュラムを提案する。
- 参考スコア(独自算出の注目度): 2.930703970709558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present and study a training set-up that achieves fast
policy generation for real-world robotic tasks by using massive parallelism on
a single workstation GPU. We analyze and discuss the impact of different
training algorithm components in the massively parallel regime on the final
policy performance and training times. In addition, we present a novel
game-inspired curriculum that is well suited for training with thousands of
simulated robots in parallel. We evaluate the approach by training the
quadrupedal robot ANYmal to walk on challenging terrain. The parallel approach
allows training policies for flat terrain in under four minutes, and in twenty
minutes for uneven terrain. This represents a speedup of multiple orders of
magnitude compared to previous work. Finally, we transfer the policies to the
real robot to validate the approach. We open-source our training code to help
accelerate further research in the field of learned legged locomotion.
- Abstract(参考訳): 本研究では,1台のワークステーションGPU上で大規模並列処理を用いることで,実世界のロボットタスクの高速なポリシー生成を実現するトレーニングセットを提示・研究する。
大規模並列システムにおける異なるトレーニングアルゴリズムコンポーネントが最終的なポリシー性能とトレーニング時間に与える影響を分析し,議論する。
さらに,何千ものシミュレーションロボットを並列に学習するのに適した,ゲームに触発された新しいカリキュラムを提案する。
我々は,四足歩行ロボットANYmalを訓練して,挑戦的な地形を歩いた。
平行アプローチでは、平坦な地形を4分以内で、不均一な地形を20分で訓練できる。
これは、以前の作業と比べて、複数の桁のスピードアップを意味します。
最後に、アプローチを検証するために、ポリシーを実際のロボットに転送します。
私たちはトレーニングコードをオープンソースとして公開し、学習脚歩行の分野でのさらなる研究を加速します。
関連論文リスト
- Multi-Objective Algorithms for Learning Open-Ended Robotic Problems [1.0124625066746598]
四足歩行は、自動運転車の普及に不可欠な複雑でオープンな問題である。
従来の強化学習アプローチは、トレーニングの不安定性とサンプルの非効率のため、しばしば不足する。
自動カリキュラム学習機構として多目的進化アルゴリズムを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T16:26:42Z) - FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning [74.25049012472502]
FLaReは、堅牢な事前訓練された表現、大規模なトレーニング、勾配安定化技術を統合する大規模な強化学習フレームワークである。
提案手法は,タスク完了に向けた事前訓練されたポリシーを整列し,これまで実証され,全く新しいタスクや実施状況において,最先端(SoTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-25T03:15:17Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Advanced Skills by Learning Locomotion and Local Navigation End-to-End [10.872193480485596]
本研究は, 深層強化学習によるエンドツーエンド政策の訓練により, 完全な問題を解決することを提案する。
実際の四足歩行ロボットにおけるポリシーの展開を実演する。
論文 参考訳(メタデータ) (2022-09-26T16:35:00Z) - A Walk in the Park: Learning to Walk in 20 Minutes With Model-Free
Reinforcement Learning [86.06110576808824]
深層強化学習は、制御されていない環境での学習ポリシーに対する有望なアプローチである。
機械学習アルゴリズムとライブラリの最近の進歩と、慎重に調整されたロボットコントローラを組み合わせることで、現実世界では4分で学習できる。
論文 参考訳(メタデータ) (2022-08-16T17:37:36Z) - Learning Bipedal Walking On Planned Footsteps For Humanoid Robots [5.127310126394387]
脚付きロボットのための深部強化学習(RL)ベースのコントローラーは、いくつかのロボットプラットフォームのために異なる環境を歩行する際、顕著な頑丈さを実証している。
ヒューマノイドロボットへのRLポリシーの適用を現実の環境で実現するためには,どのような方向にも堅牢な歩行を実現するシステムを構築することが不可欠である。
本稿では,あるステップシーケンスに従うポリシーを学習することで,この問題に対処する。
今後の2つのステップをポリシーに投入するだけで、一方向歩行、位置転換、立ち上がり、階段を登るのに十分であることを示す。
論文 参考訳(メタデータ) (2022-07-26T04:16:00Z) - Robust High-speed Running for Quadruped Robots via Deep Reinforcement
Learning [7.264355680723856]
そこで,本稿では,環境障害にともなうできるだけ速く走行するタスクのために,カルタゴ空間における足場位置の学習について検討する。
他のアクション空間と比較して、より少ない報酬形成、より優れたサンプル効率、ギャロッピングやバウンディングなどの自然歩行の出現を観察する。
公称4倍の質量の100%以上の負荷で荒れた地形の上を走るという困難なタスクであっても、政策はわずか数百万の時間ステップで学ぶことができます。
論文 参考訳(メタデータ) (2021-03-11T06:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。