論文の概要: Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2304.13653v1
- Date: Wed, 26 Apr 2023 16:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 13:44:58.123518
- Title: Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習による二足歩行ロボットのアジャイルサッカースキルの学習
- Authors: Tuomas Haarnoja, Ben Moran, Guy Lever, Sandy H. Huang, Dhruva
Tirumala, Markus Wulfmeier, Jan Humplik, Saran Tunyasuvunakool, Noah Y.
Siegel, Roland Hafner, Michael Bloesch, Kristian Hartikainen, Arunkumar
Byravan, Leonard Hasenclever, Yuval Tassa, Fereshteh Sadeghi, Nathan
Batchelor, Federico Casarini, Stefano Saliceti, Charles Game, Neil Sreendra,
Kushal Patel, Marlon Gwira, Andrea Huber, Nicole Hurley, Francesco Nori, Raia
Hadsell, Nicolas Heess
- Abstract要約: 我々はDeep RLを使って20個の関節を持つヒューマノイドロボットを訓練し、単純化された1対1 (1v1) のサッカーゲームをする。
最初は個別のスキルを個別に訓練し、その後、エンドツーエンドのスキルをセルフプレイで構成しました。
結果として得られる政策は、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示す。
- 参考スコア(独自算出の注目度): 26.531618219032936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether Deep Reinforcement Learning (Deep RL) is able to
synthesize sophisticated and safe movement skills for a low-cost, miniature
humanoid robot that can be composed into complex behavioral strategies in
dynamic environments. We used Deep RL to train a humanoid robot with 20
actuated joints to play a simplified one-versus-one (1v1) soccer game. We first
trained individual skills in isolation and then composed those skills
end-to-end in a self-play setting. The resulting policy exhibits robust and
dynamic movement skills such as rapid fall recovery, walking, turning, kicking
and more; and transitions between them in a smooth, stable, and efficient
manner - well beyond what is intuitively expected from the robot. The agents
also developed a basic strategic understanding of the game, and learned, for
instance, to anticipate ball movements and to block opponent shots. The full
range of behaviors emerged from a small set of simple rewards. Our agents were
trained in simulation and transferred to real robots zero-shot. We found that a
combination of sufficiently high-frequency control, targeted dynamics
randomization, and perturbations during training in simulation enabled
good-quality transfer, despite significant unmodeled effects and variations
across robot instances. Although the robots are inherently fragile, minor
hardware modifications together with basic regularization of the behavior
during training led the robots to learn safe and effective movements while
still performing in a dynamic and agile way. Indeed, even though the agents
were optimized for scoring, in experiments they walked 156% faster, took 63%
less time to get up, and kicked 24% faster than a scripted baseline, while
efficiently combining the skills to achieve the longer term objectives.
Examples of the emergent behaviors and full 1v1 matches are available on the
supplementary website.
- Abstract(参考訳): 深層強化学習(deep rl)が、動的環境において複雑な行動戦略に構成できる低コストでミニチュアなヒューマノイドロボットのために、高度で安全な移動スキルを合成できるかどうかを検討する。
我々はDeep RLを使って、20個の関節を持つヒューマノイドロボットを訓練し、1対1(1v1)のサッカーゲームを単純化した。
最初に個々のスキルを分離してトレーニングし、そのスキルをエンドツーエンドでセルフプレイ環境で構成しました。
結果として得られる方針は、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示し、ロボットから直感的に期待されるものを超えて、スムーズで安定した効率的な方法でそれらの間の遷移を示す。
エージェントはゲームの基本的な戦略的理解を開発し、例えばボールの動きを予測し、相手のショットをブロックするために学習した。
行動の全範囲は、単純な報酬の小さなセットから生まれました。
我々のエージェントはシミュレーションを訓練され、実際のロボットにゼロショットで移動された。
シミュレーションにおいて, 十分な高周波制御, 目標動力学ランダム化, 摂動の組み合わせにより, ロボットのインスタンス間で大きな非モデル化効果や変動にもかかわらず, 高品質な移動が可能となった。
ロボットは本質的に脆弱だが、小さなハードウェア変更とトレーニング中の行動の基本的な規則化によって、ロボットは動的かつアジャイルな方法で実行しながら、安全で効果的な動きを学ぶことができた。
実際、エージェントはスコアリングに最適化されたものの、実験では156%速く歩き、立ち上がるのに63%の時間を要し、スクリプト化されたベースラインよりも24%速く蹴り、長期的な目標を達成するためのスキルを効率的に組み合わせました。
創発的な行動と完全な1v1マッチの例は、追加のウェブサイトで見ることができる。
関連論文リスト
- SoloParkour: Constrained Reinforcement Learning for Visual Locomotion from Privileged Experience [19.817578964184147]
Parkourは、足のついたロボットにとって重要な課題であり、限られた感覚入力に基づいて、俊敏性と精度で複雑な環境をナビゲートする必要がある。
本稿では,深度画素からロボット制御コマンドに至るまでのエンドツーエンドの視覚ポリシーをトレーニングし,アジャイルで安全な四足歩行を実現するための新しい手法を提案する。
本研究では,実際のSolo-12ロボットにおいて,歩行,登山,跳躍,クロールなど,さまざまなパーキングスキルを実行する能力を示す。
論文 参考訳(メタデータ) (2024-09-20T17:39:20Z) - DexDribbler: Learning Dexterous Soccer Manipulation via Dynamic Supervision [26.9579556496875]
移動物体の協調操作と,サッカーなどの足による移動は,学習コミュニティにおいて目立たない注目を集める。
出力をダイナミックな関節レベル移動監視として使用し,必要な身体レベルの動きを正確に計算するフィードバック制御ブロックを提案する。
我々は,我々の学習手法が政策ネットワークをより早く収束させるだけでなく,サッカーロボットが高度な操作を行うことを可能にすることを観察した。
論文 参考訳(メタデータ) (2024-03-21T11:16:28Z) - Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Barkour: Benchmarking Animal-level Agility with Quadruped Robots [70.97471756305463]
脚付きロボットのアジリティを定量化するための障害物コースであるBarkourベンチマークを導入する。
犬の機敏性の競争に触発され、様々な障害と時間に基づくスコアリング機構から構成される。
ベンチマークに対処する2つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:49:43Z) - Hierarchical Reinforcement Learning for Precise Soccer Shooting Skills
using a Quadrupedal Robot [76.04391023228081]
本研究では,四足歩行ロボットが実世界において,強化学習を用いて精度の高い射撃技術を実現できるという課題に対処する。
本研究では, 深層強化学習を活用して頑健な動作制御政策を訓練する階層的枠組みを提案する。
提案するフレームワークをA1四足歩行ロボットに展開し、実世界のランダムなターゲットに向けて正確にボールを発射できるようにする。
論文 参考訳(メタデータ) (2022-08-01T22:34:51Z) - Adaptation of Quadruped Robot Locomotion with Meta-Learning [64.71260357476602]
本研究では,多岐にわたる移動課題を解くロボットの訓練にメタ強化学習を用いることを実証する。
メタトレーニングロボットのパフォーマンスは、単一のタスクでトレーニングされたロボットと似ている。
論文 参考訳(メタデータ) (2021-07-08T10:37:18Z) - Learning Bipedal Robot Locomotion from Human Movement [0.791553652441325]
本研究では、実世界の二足歩行ロボットに、モーションキャプチャーデータから直接の動きを教えるための強化学習に基づく手法を提案する。
本手法は,シミュレーション環境下でのトレーニングから,物理ロボット上での実行へシームレスに移行する。
本研究では,ダイナミックウォークサイクルから複雑なバランスや手振りに至るまでの動作を内製したヒューマノイドロボットについて実演する。
論文 参考訳(メタデータ) (2021-05-26T00:49:37Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z) - Learning Agile Robotic Locomotion Skills by Imitating Animals [72.36395376558984]
動物の多様でアジャイルな運動スキルを再現することは、ロボット工学における長年の課題である。
そこで本研究では,現実世界の動物を模倣することで,足のロボットがアジャイルな運動能力を学ぶことができる模倣学習システムを提案する。
論文 参考訳(メタデータ) (2020-04-02T02:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。