論文の概要: Learning to Play Soccer From Scratch: Sample-Efficient Emergent
Coordination through Curriculum-Learning and Competition
- arxiv url: http://arxiv.org/abs/2103.05174v1
- Date: Tue, 9 Mar 2021 01:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:45:30.019475
- Title: Learning to Play Soccer From Scratch: Sample-Efficient Emergent
Coordination through Curriculum-Learning and Competition
- Title(参考訳): スクラッチからサッカーを学ぶ:カリキュラム学習と競争による有効創発的コーディネーション
- Authors: Pavan Samtani, Francisco Leiva, Javier Ruiz-del-Solar
- Abstract要約: 本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。
この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。
この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。
- 参考スコア(独自算出の注目度): 1.675857332621569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes a scheme that allows learning complex multi-agent
behaviors in a sample efficient manner, applied to 2v2 soccer. The problem is
formulated as a Markov game, and solved using deep reinforcement learning. We
propose a basic multi-agent extension of TD3 for learning the policy of each
player, in a decentralized manner. To ease learning, the task of 2v2 soccer is
divided in three stages: 1v0, 1v1 and 2v2. The process of learning in
multi-agent stages (1v1 and 2v2) uses agents trained on a previous stage as
fixed opponents. In addition, we propose using experience sharing, a method
that shares experience from a fixed opponent, trained in a previous stage, for
training the agent currently learning, and a form of frame-skipping, to raise
performance significantly. Our results show that high quality soccer play can
be obtained with our approach in just under 40M interactions. A summarized
video of the resulting game play can be found in https://youtu.be/f25l1j1U9RM.
- Abstract(参考訳): 本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。
この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。
各プレイヤーのポリシーを分散的に学習するためのTD3の基本的なマルチエージェント拡張を提案する。
学習を容易にするため、2v2サッカーの課題は1v0、1v1、2v2の3段階に分けられる。
多エージェント段階(1v1と2v2)での学習プロセスでは、前段階で訓練されたエージェントを固定的な相手として使用する。
また,現在学習中のエージェントをトレーニングするために,前段階からトレーニングを受けた固定相手からの体験を共有する方法であるexperience sharingと,フレームスキップ方式を用いることにより,パフォーマンスを著しく向上させる。
この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。
ゲームプレイの要約ビデオはhttps://youtu.be/f25l1j1U9RMで見ることができる。
関連論文リスト
- Enhancing Two-Player Performance Through Single-Player Knowledge Transfer: An Empirical Study on Atari 2600 Games [1.03590082373586]
本研究では,Atari 2600 RAMを入力状態とした10種類のAtari 2600環境における提案手法について検討した。
我々は,スクラッチから2人プレイヤ設定のトレーニングよりも,シングルプレイヤートレーニングプロセスからトランスファーラーニングを使用することの利点について論じる。
論文 参考訳(メタデータ) (2024-10-22T02:57:44Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Value-based CTDE Methods in Symmetric Two-team Markov Game: from
Cooperation to Team Competition [3.828689444527739]
混合協調競争環境における協調的価値ベース手法の評価を行った。
集中型トレーニングと分散型実行パラダイムに基づく3つのトレーニング手法を選択した。
実験では、StarCraft Multi-Agent Challenge環境を変更して、両チームが同時に学び、競争できる競争環境を作りました。
論文 参考訳(メタデータ) (2022-11-21T22:25:55Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - Two-stage training algorithm for AI robot soccer [2.0757564643017092]
異種エージェントの学習性能を向上させるために,二段階多種集中訓練を提案する。
提案手法は,5対5のAIロボットサッカーを用いて検証を行う。
論文 参考訳(メタデータ) (2021-04-13T04:24:13Z) - An analysis of Reinforcement Learning applied to Coach task in IEEE Very
Small Size Soccer [2.5400028272658144]
本稿では、強化学習(RL)に基づくコーチングタスクのエンドツーエンドアプローチを提案する。
シミュレーション環境では、3つの異なるチームに対して2つのRLポリシーをトレーニングしました。
結果はVSSSリーグのトップチームの1つに対して評価された。
論文 参考訳(メタデータ) (2020-11-23T23:10:06Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。