論文の概要: Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.04317v2
- Date: Wed, 11 Jun 2025 12:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 04:22:26.075865
- Title: Mastering Multi-Drone Volleyball through Hierarchical Co-Self-Play Reinforcement Learning
- Title(参考訳): 階層型協調演奏強化学習による多自由度バレーボールのマスタリング
- Authors: Ruize Zhang, Sirui Xiang, Zelai Xu, Feng Gao, Shilong Ji, Wenhao Tang, Wenbo Ding, Chao Yu, Yu Wang,
- Abstract要約: 我々は3v3マルチドローンバレーボールを習うことの課題に取り組む。
このタスクには、高レベルの戦略的調整と低レベルのアジャイル管理の両方が必要です。
階層型強化学習フレームワークである階層型自己学習を提案する。
- 参考スコア(独自算出の注目度): 13.062481157503495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of learning to play 3v3 multi-drone volleyball, a new embodied competitive task that requires both high-level strategic coordination and low-level agile control. The task is turn-based, multi-agent, and physically grounded, posing significant challenges due to its long-horizon dependencies, tight inter-agent coupling, and the underactuated dynamics of quadrotors. To address this, we propose Hierarchical Co-Self-Play (HCSP), a hierarchical reinforcement learning framework that separates centralized high-level strategic decision-making from decentralized low-level motion control. We design a three-stage population-based training pipeline to enable both strategy and skill to emerge from scratch without expert demonstrations: (I) training diverse low-level skills, (II) learning high-level strategy via self-play with fixed low-level controllers, and (III) joint fine-tuning through co-self-play. Experiments show that HCSP achieves superior performance, outperforming non-hierarchical self-play and rule-based hierarchical baselines with an average 82.9% win rate and a 71.5% win rate against the two-stage variant. Moreover, co-self-play leads to emergent team behaviors such as role switching and coordinated formations, demonstrating the effectiveness of our hierarchical design and training scheme. The project page is at https://sites.google.com/view/hi-co-self-play.
- Abstract(参考訳): 本稿では,ハイレベルな戦略的コーディネーションと低レベルなアジャイルコントロールの両方を必要とする,新しい具体的競争課題である3v3マルチドローンバレーボールの学習に挑戦する。
このタスクはターンベース、マルチエージェント、物理接地であり、長い水平依存、タイトなエージェント間カップリング、四重項の不安定なダイナミクスなど、大きな課題を生んでいる。
これを解決するために,中央集権的戦略決定を分散化低レベル動作制御から分離する階層的強化学習フレームワークである階層的自己学習(HCSP)を提案する。
我々は,(I)多様な低レベルスキルのトレーニング,(II)固定低レベルコントローラによる自己プレイによるハイレベル戦略の学習,(III)共同プレイによる共同微調整,という3段階の集団ベーストレーニングパイプラインを,専門家によるデモンストレーションなしに,ゼロから戦略とスキルを両立させることができるように設計する。
実験の結果、HCSPは、非階層的な自己プレーとルールベースの階層的なベースラインを平均82.9%の勝利率と71.5%の勝利率で上回った。
さらに、コ・セルフ・プレイは役割の切り替えやコーディネート・フォーメーションといった創発的なチーム行動をもたらし、階層的なデザインとトレーニングの手法の有効性を実証します。
プロジェクトのページはhttps://sites.google.com/view/hi-co-self-playにある。
関連論文リスト
- A Hierarchical Reinforcement Learning Framework for Multi-UAV Combat Using Leader-Follower Strategy [3.095786524987445]
マルチUAV空戦は、複数の自律型UAVを含む複雑な作業である。
以前のアプローチは、主にアクション空間を事前定義されたアクションに識別する。
本稿では,リーダ・フォロワー・マルチエージェント・プロキシ・ポリシー最適化戦略を利用した階層型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-22T02:41:36Z) - Mimicking To Dominate: Imitation Learning Strategies for Success in
Multiagent Competitive Games [13.060023718506917]
我々は、対戦者の次の動きを予測するための新しいマルチエージェント模倣学習モデルを開発する。
また、模倣学習モデルとポリシートレーニングを組み合わせた、新しいマルチエージェント強化学習アルゴリズムを1つのトレーニングプロセスに導入する。
実験結果から,本手法は既存のマルチエージェントRLアルゴリズムと比較して性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-08-20T07:30:13Z) - Accelerating Self-Supervised Learning via Efficient Training Strategies [98.26556609110992]
自己監督型ディープネットワークのトレーニング時間は、教師付きディープネットワークよりも桁違いに大きい。
これらの課題に乗じて,近年の自己指導手法の訓練時間を短縮する方法について検討する。
論文 参考訳(メタデータ) (2022-12-11T21:49:39Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Learning to Transfer Role Assignment Across Team Sizes [48.43860606706273]
チーム規模で役割の割り当てと移譲を学ぶためのフレームワークを提案する。
ロールベースの信用割当構造を再利用することで、より大きな強化学習チームの学習プロセスが促進されることを示す。
論文 参考訳(メタデータ) (2022-04-17T11:22:01Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - It Takes Four to Tango: Multiagent Selfplay for Automatic Curriculum
Generation [107.10235120286352]
汎用強化学習エージェントを効率的に訓練するには、ゴールカリキュラムの自動生成が必要である。
自動ゴール生成フレームワークCuSPを提案する。
本手法は,様々な制御タスクに対して,効率的な目標のカリキュラムを生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-22T01:23:23Z) - JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical
Reinforcement Learning [13.57305458734617]
本稿では,表現学習と模倣学習を併用したサンプル効率の高い階層的RLアプローチであるJueWu-MCを提案する。
具体的には、高レベルのコントローラがオプションを制御するポリシーを学習し、低レベルのワーカーが各サブタスクの解決を学ぶという2つの階層構造を含む。
サブタスクの学習を促進するために,1)行動と表現の基盤となる関係を捉えた行動認識表現学習,2)効率的な探索のための識別器に基づく自己刺激学習,3)一貫性フィルタリングによるアンサンブル行動のクローニングなどを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2021-12-07T09:24:49Z) - HAVEN: Hierarchical Cooperative Multi-Agent Reinforcement Learning with
Dual Coordination Mechanism [17.993973801986677]
多エージェント強化学習はしばしば、多数のエージェントによって引き起こされる指数関数的に大きな作用空間に悩まされる。
完全協調型マルチエージェント問題に対する階層的強化学習に基づく新しい値分解フレームワークHAVENを提案する。
論文 参考訳(メタデータ) (2021-10-14T10:43:47Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。