論文の概要: A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments
- arxiv url: http://arxiv.org/abs/2312.12255v2
- Date: Tue, 30 Apr 2024 06:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:28:13.216436
- Title: A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments
- Title(参考訳): 多様な環境におけるマルチUAV探索行動のためのデュアルカリキュラム学習フレームワーク
- Authors: Jiayu Chen, Guosheng Li, Chao Yu, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang,
- Abstract要約: 本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。
多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
- 参考スコア(独自算出の注目度): 15.959963737956848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses multi-UAV pursuit-evasion, where a group of drones cooperates to capture a fast evader in a confined environment with obstacles. Existing heuristic algorithms, which simplify the pursuit-evasion problem, often lack expressive coordination strategies and struggle to capture the evader in extreme scenarios, such as when the evader moves at high speeds. In contrast, reinforcement learning (RL) has been applied to this problem and has the potential to obtain highly cooperative capture strategies. However, RL-based methods face challenges in training for complex 3-dimensional scenarios with diverse task settings due to the vast exploration space. The dynamics constraints of drones further restrict the ability of reinforcement learning to acquire high-performance capture strategies. In this work, we introduce a dual curriculum learning framework, named DualCL, which addresses multi-UAV pursuit-evasion in diverse environments and demonstrates zero-shot transfer ability to unseen scenarios. DualCL comprises two main components: the Intrinsic Parameter Curriculum Proposer, which progressively suggests intrinsic parameters from easy to hard to improve the capture capability of drones, and the External Environment Generator, tasked with exploring unresolved scenarios and generating appropriate training distributions of external environment parameters. The simulation experimental results show that DualCL significantly outperforms baseline methods, achieving over 90% capture rate and reducing the capture timestep by at least 27.5% in the training scenarios. Additionally, it exhibits the best zero-shot generalization ability in unseen environments. Moreover, we demonstrate the transferability of our pursuit strategy from simulation to real-world environments. Further details can be found on the project website at https://sites.google.com/view/dualcl.
- Abstract(参考訳): 本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。
既存のヒューリスティックアルゴリズムは、追従回避問題を単純化し、しばしば表現力のある協調戦略が欠如し、避難者が高速で移動するような極端なシナリオで避難者を捕まえるのに苦労する。
対照的に、この問題に対して強化学習(RL)が適用されており、高度に協調的な捕獲戦略を得る可能性がある。
しかし、RLに基づく手法は、広大な探索空間のため、多様なタスク設定を持つ複雑な3次元シナリオの訓練において課題に直面している。
ドローンのダイナミックス制約により、強化学習による高性能捕獲戦略の獲得がさらに制限される。
本研究では,多様な環境におけるマルチUAV追従回避に対処するデュアルカリキュラム学習フレームワークDualCLを紹介する。
DualCLの主なコンポーネントは、ドローンの捕獲能力を向上させるために、内在パラメーターを徐々に提案する内在パラメーター計算プロポーラと、未解決シナリオを探索し、外部環境パラメータの適切なトレーニング分布を生成する外部環境ジェネレータである。
シミュレーション実験の結果、DualCLはベースライン法を著しく上回り、90%以上の捕獲率を達成し、訓練シナリオでは少なくとも27.5%の捕獲時間を短縮した。
さらに、目に見えない環境で最高のゼロショット一般化能力を示す。
さらに,シミュレーションから実環境への追跡戦略の伝達可能性を示す。
詳細はプロジェクトのWebサイトhttps://sites.google.com/view/dualcl.comで確認できる。
関連論文リスト
- Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Bootstrapping Reinforcement Learning with Imitation for Vision-Based Agile Flight [20.92646531472541]
本稿では,Reinforcement Learning(RL)とImitation Learning(IL)のサンプル効率を組み合わせた新しいアプローチを提案する。
本フレームワークは、RLを用いた3段階の教員政策と、ILによる学生政策に蒸留する特権状態情報と、RLによる適応微調整とを含む。
テストでは、スクラッチからRLが失敗するシナリオだけでなく、ロバストさとパフォーマンスの両方で既存のILメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-18T19:25:57Z) - Learning to Fly in Seconds [7.259696592534715]
カリキュラム学習と高度に最適化されたシミュレータが,サンプルの複雑さを増し,学習時間の短縮につながることを示す。
我々のフレームワークは、コンシューマ級ラップトップで18秒のトレーニングをした後、直接制御するためのSimulation-to-Real(Sim2Real)転送を可能にする。
論文 参考訳(メタデータ) (2023-11-22T01:06:45Z) - Contrastive Initial State Buffer for Reinforcement Learning [25.849626996870526]
強化学習(Reinforcement Learning)では、探究と搾取のトレードオフは、限られたサンプルから効率的な学習を実現するための複雑な課題となる。
本稿では,過去の経験から状態を戦略的に選択し,エージェントを環境に初期化するContrastive Initial State Bufferの概念を紹介する。
環境に関する事前情報に頼ることなく、2つの複雑なロボットタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-09-18T13:26:40Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Decentralized Reinforcement Learning for Multi-Target Search and
Detection by a Team of Drones [12.055303570215335]
対象の探索と検出は、カバレッジ、監視、探索、観測、追跡回避など、さまざまな決定問題を含む。
我々は,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習法(MADRL)を開発した。
論文 参考訳(メタデータ) (2021-03-17T09:04:47Z) - Language-guided Navigation via Cross-Modal Grounding and Alternate
Adversarial Learning [66.9937776799536]
新たなビジョン・アンド・ランゲージナビゲーション(VLN)問題は、見えない写真リアリスティック環境において、エージェントがターゲットの場所に向かうことを学習することを目的としている。
VLNの主な課題は、主に2つの側面から生じている: まず、エージェントは動的に変化する視覚環境に対応する言語命令の有意義な段落に出席する必要がある。
そこで本稿では,エージェントにテキストと視覚の対応性を追跡する機能を持たせるために,クロスモーダルグラウンドモジュールを提案する。
論文 参考訳(メタデータ) (2020-11-22T09:13:46Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。