論文の概要: From Motor Control to Team Play in Simulated Humanoid Football
- arxiv url: http://arxiv.org/abs/2105.12196v1
- Date: Tue, 25 May 2021 20:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:18:39.879430
- Title: From Motor Control to Team Play in Simulated Humanoid Football
- Title(参考訳): シミュレーションヒューマノイドフットボールにおける運動制御からチームプレイへ
- Authors: Siqi Liu, Guy Lever, Zhe Wang, Josh Merel, S. M. Ali Eslami, Daniel
Hennes, Wojciech M. Czarnecki, Yuval Tassa, Shayegan Omidshafiei, Abbas
Abdolmaleki, Noah Y. Siegel, Leonard Hasenclever, Luke Marris, Saran
Tunyasuvunakool, H. Francis Song, Markus Wulfmeier, Paul Muller, Tuomas
Haarnoja, Brendan D. Tracey, Karl Tuyls, Thore Graepel, Nicolas Heess
- Abstract要約: 我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
- 参考スコア(独自算出の注目度): 56.86144022071756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent behaviour in the physical world exhibits structure at multiple
spatial and temporal scales. Although movements are ultimately executed at the
level of instantaneous muscle tensions or joint torques, they must be selected
to serve goals defined on much longer timescales, and in terms of relations
that extend far beyond the body itself, ultimately involving coordination with
other agents. Recent research in artificial intelligence has shown the promise
of learning-based approaches to the respective problems of complex movement,
longer-term planning and multi-agent coordination. However, there is limited
research aimed at their integration. We study this problem by training teams of
physically simulated humanoid avatars to play football in a realistic virtual
environment. We develop a method that combines imitation learning, single- and
multi-agent reinforcement learning and population-based training, and makes use
of transferable representations of behaviour for decision making at different
levels of abstraction. In a sequence of stages, players first learn to control
a fully articulated body to perform realistic, human-like movements such as
running and turning; they then acquire mid-level football skills such as
dribbling and shooting; finally, they develop awareness of others and play as a
team, bridging the gap between low-level motor control at a timescale of
milliseconds, and coordinated goal-directed behaviour as a team at the
timescale of tens of seconds. We investigate the emergence of behaviours at
different levels of abstraction, as well as the representations that underlie
these behaviours using several analysis techniques, including statistics from
real-world sports analytics. Our work constitutes a complete demonstration of
integrated decision-making at multiple scales in a physically embodied
multi-agent setting. See project video at https://youtu.be/KHMwq9pv7mg.
- Abstract(参考訳): 物理的世界の知的行動は、複数の空間的および時間的スケールで構造を示す。
運動は究極的には即時筋緊張や関節トルクのレベルで実行されるが、はるかに長い時間スケールで定義された目標と、最終的には他のエージェントとの協調を含む身体自体よりもはるかに遠くまで広がる関係において、それらが選択される必要がある。
人工知能の最近の研究は、複雑な動き、長期計画、マルチエージェント調整の各問題に対する学習に基づくアプローチの可能性を示唆している。
しかし、その統合をめざした研究は限られている。
本研究は,現実の仮想環境でサッカーをするために,物理的にシミュレートされたヒューマノイドアバターのチームを訓練することによる。
本研究では, 模倣学習, シングルエージェント, 多エージェント強化学習, 人口ベース学習を組み合わせた手法を開発し, 異なる抽象レベルでの意思決定に, 伝達可能な行動表現を利用する。
プレイヤーはまず、完全に関節化された身体を制御して、ランニングやターンのような現実的な人間的な動きをし、その後ドリブルやシューティングのような中級のサッカースキルを獲得し、最後に、他人の意識を発達させ、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋め、数十秒のタイムスケールでチームとしてゴール指向の行動を調整する。
本研究では,様々な抽象レベルにおける行動の出現と,実世界のスポーツ分析の統計を含むいくつかの分析手法を用いて,これらの行動の基盤となる表現について検討する。
本研究は,物理的に具体化されたマルチエージェント設定において,複数の尺度での統合意思決定の完全な実演を構成する。
プロジェクトビデオはhttps://youtu.be/khmwq9pv7mg。
関連論文リスト
- Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal
Locomotion Control [112.66677641636299]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Hierarchical generative modelling for autonomous robots [8.023920215148486]
人型ロボットが、移動、操作、把握の全体的利用を必要とする複雑なタスクを自律的に完了できることを示します。
具体的には、箱を回収して輸送し、ドアを通り抜けて目的地に到達し、接近し、サッカーを蹴ることのできるヒューマノイドロボットの能力を示すとともに、身体の損傷や地面の不規則性の存在下で頑健な性能を示す。
論文 参考訳(メタデータ) (2023-08-15T13:51:03Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Action valuation of on- and off-ball soccer players based on multi-agent
deep reinforcement learning [4.477124009148237]
マルチエージェント深部強化学習に基づく1つの総合的な枠組みを用いて,オンタイムおよびオフボール選手のアクションを評価する手法を提案する。
本手法では,識別やラベル付けが困難なゲームを通して,複数のプレイヤーが連続的に動き続けるかを評価することができる。
論文 参考訳(メタデータ) (2023-05-29T05:14:36Z) - Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement
Learning [26.531618219032936]
我々はDeep RLを使って20個の関節を持つヒューマノイドロボットを訓練し、単純化された1対1 (1v1) のサッカーゲームをする。
最初は個別のスキルを個別に訓練し、その後、エンドツーエンドのスキルをセルフプレイで構成しました。
結果として得られる政策は、急激な転倒回復、歩行、回転、蹴りなど、堅牢でダイナミックな動きのスキルを示す。
論文 参考訳(メタデータ) (2023-04-26T16:25:54Z) - Detecting Individual Decision-Making Style: Exploring Behavioral
Stylometry in Chess [4.793072503820555]
チェスの文脈における行動スタイメトリーに対するトランスフォーマーに基づくアプローチを提案する。
本手法は,数発の分類フレームワークで動作し,数千人の候補選手の中から選手を正確に識別することができる。
我々は、チェスにおける人間のスタイルと潜在的な倫理的意味について、結果の埋め込みが明らかにするものをより広く検討する。
論文 参考訳(メタデータ) (2022-08-02T11:18:16Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z) - Thinking While Moving: Deep Reinforcement Learning with Concurrent
Control [122.49572467292293]
本研究では,制御システムの時間的進化とともに,ポリシーからのアクションのサンプリングを同時に行わなければならないような環境下での強化学習について検討する。
人や動物のように、ロボットは思考と移動を同時に行わなければならず、前の動作が完了する前に次の動作を決定する。
論文 参考訳(メタデータ) (2020-04-13T17:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。