論文の概要: Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.16720v1
- Date: Wed, 25 Sep 2024 08:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 04:50:49.459148
- Title: Dashing for the Golden Snitch: Multi-Drone Time-Optimal Motion Planning with Multi-Agent Reinforcement Learning
- Title(参考訳): ゴールデンスニッチのためのダッシング:マルチエージェント強化学習による多次元時間最適運動計画
- Authors: Xian Wang, Jin Zhou, Yuanli Feng, Jiahao Mei, Jiming Chen, Shuo Li,
- Abstract要約: 本稿では,マルチエージェント強化学習を用いた時間最適マルチドローン飛行のための分散ポリシーネットワークを提案する。
飛行効率と衝突回避のバランスをとるために,最適化手法に着想を得たソフト衝突ペナルティを導入する。
大規模シミュレーションにより, 単流体系と比較して性能のトレードオフはわずかに小さいものの, 衝突速度が低い状態で, 最適に近い性能を維持していることがわかった。
- 参考スコア(独自算出の注目度): 10.579847782542982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent innovations in autonomous drones have facilitated time-optimal flight in single-drone configurations and enhanced maneuverability in multi-drone systems through the application of optimal control and learning-based methods. However, few studies have achieved time-optimal motion planning for multi-drone systems, particularly during highly agile maneuvers or in dynamic scenarios. This paper presents a decentralized policy network for time-optimal multi-drone flight using multi-agent reinforcement learning. To strike a balance between flight efficiency and collision avoidance, we introduce a soft collision penalty inspired by optimization-based methods. By customizing PPO in a centralized training, decentralized execution (CTDE) fashion, we unlock higher efficiency and stability in training, while ensuring lightweight implementation. Extensive simulations show that, despite slight performance trade-offs compared to single-drone systems, our multi-drone approach maintains near-time-optimal performance with low collision rates. Real-world experiments validate our method, with two quadrotors using the same network as simulation achieving a maximum speed of 13.65 m/s and a maximum body rate of 13.4 rad/s in a 5.5 m * 5.5 m * 2.0 m space across various tracks, relying entirely on onboard computation.
- Abstract(参考訳): 自律ドローンの最近の革新は、最適制御と学習に基づく手法の適用を通じて、単一ドローン構成での時間最適飛行を容易にし、マルチドローンシステムの操作性を向上してきた。
しかし、特に高度にアジャイルな操作や動的シナリオにおいて、マルチドローンシステムのタイム最適動作計画を達成する研究はほとんどない。
本稿では,マルチエージェント強化学習を用いた時間最適マルチドローン飛行のための分散ポリシーネットワークを提案する。
飛行効率と衝突回避のバランスをとるために,最適化手法に着想を得たソフト衝突ペナルティを導入する。
集中型トレーニング、分散実行(CTDE)スタイルでPPOをカスタマイズすることで、軽量な実装を確保しながら、トレーニングの効率性と安定性を高めることができる。
大規模シミュレーションでは, 単流体システムと比較して性能のトレードオフは少ないものの, 衝突速度が低く, 最適に近い性能を保っていることがわかった。
実世界の実験では、シミュレーションと同じネットワークで最大速度13.65 m/sと最大ボディレート13.4 rad/sを5.5 m * 5.5 m * 2.0 mで達成し、完全にオンボード計算に依存している。
関連論文リスト
- Hybrid Imitation-Learning Motion Planner for Urban Driving [0.0]
本稿では,学習ベースと最適化ベースを融合した新しいハイブリッドモーションプランナを提案する。
我々のモデルは、これらの目的に固有のトレードオフを緩和し、安全性と人間の類似性を効果的にバランスさせます。
シミュレーション実験により本手法を検証し,現実の自動運転車に導入することで,その有効性を更に実証する。
論文 参考訳(メタデータ) (2024-09-04T16:54:31Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - AirPilot: Interpretable PPO-based DRL Auto-Tuned Nonlinear PID Drone Controller for Robust Autonomous Flights [1.947822083318316]
AirPilotは、非線形ディープ強化学習 (DRL) - プロポーショナル・インテグレーショナル・デリバティブ (PID) ドローン・コントローラである。
AirPilotコントローラは、従来のPID制御のシンプルさと有効性と、DRLの適応性、学習能力、最適化能力を組み合わせる。
Airpilotは、デフォルトのPX4 PID位置コントローラのナビゲーションエラーを90%削減し、微調整されたPIDコントローラのナビゲーション速度を21%改善する。
論文 参考訳(メタデータ) (2024-03-30T00:46:43Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - Motion Planning and Control for Multi Vehicle Autonomous Racing at High
Speeds [100.61456258283245]
本稿では,自律走行のための多層移動計画と制御アーキテクチャを提案する。
提案手法はダララのAV-21レースカーに適用され、楕円形のレーストラックで25$m/s2$まで加速試験された。
論文 参考訳(メタデータ) (2022-07-22T15:16:54Z) - Time-Optimal Planning for Quadrotor Waypoint Flight [50.016821506107455]
立方体の作動限界における時間-最適軌道の計画は未解決の問題である。
四重項のアクチュエータポテンシャルをフル活用する解を提案する。
我々は、世界最大規模のモーションキャプチャーシステムにおいて、実世界の飛行における我々の方法を検証する。
論文 参考訳(メタデータ) (2021-08-10T09:26:43Z) - Identification and Avoidance of Static and Dynamic Obstacles on Point
Cloud for UAVs Navigation [7.14505983271756]
クラウド入力のみを点とする静的障害と動的障害を区別する手法を提案する。
計算効率の良い障害物回避運動計画手法を提案し, 改良された相対速度法と一致している。
このアプローチは、同じフレームワークの静的障害と動的障害の両方を避けることができる。
論文 参考訳(メタデータ) (2021-05-14T02:44:18Z) - Time-Efficient Mars Exploration of Simultaneous Coverage and Charging
with Multiple Drones [14.160624396972707]
本稿では,複数のドローンとローバーの協調による火星探査の時間効率向上手法を提案する。
限られたエネルギー、センサーモデル、通信範囲、安全半径を考慮した総合的な枠組みが開発されている。
TIME-SC2の顕著な性能を示すために大規模なシミュレーションが行われた。
論文 参考訳(メタデータ) (2020-11-16T07:28:37Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。