Fugu-MT 論文翻訳(概要): Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning

論文の概要: Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2409.15866v2
Date: Wed, 25 Sep 2024 13:47:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 21:27:33.140334
Title: Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning
Title（参考訳）: 深層強化学習による未知環境における複数UAV探索とオンラインプランニング
Authors: Jiayu Chen, Chao Yu, Guosheng Li, Wenhao Tang, Xinyi Yang, Botian Xu, Huazhong Yang, Yu Wang,
Abstract要約: マルチUAV追跡回避は、UAV群知能にとって重要な課題である。本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
参考スコア（独自算出の注目度）: 16.761470423715338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-UAV pursuit-evasion, where pursuers aim to capture evaders, poses a key challenge for UAV swarm intelligence. Multi-agent reinforcement learning (MARL) has demonstrated potential in modeling cooperative behaviors, but most RL-based approaches remain constrained to simplified simulations with limited dynamics or fixed scenarios. Previous attempts to deploy RL policy to real-world pursuit-evasion are largely restricted to two-dimensional scenarios, such as ground vehicles or UAVs at fixed altitudes. In this paper, we address multi-UAV pursuit-evasion by considering UAV dynamics and physical constraints. We introduce an evader prediction-enhanced network to tackle partial observability in cooperative strategy learning. Additionally, we propose an adaptive environment generator within MARL training, enabling higher exploration efficiency and better policy generalization across diverse scenarios. Simulations show our method significantly outperforms all baselines in challenging scenarios, generalizing to unseen scenarios with a 100% capture rate. Finally, we derive a feasible policy via a two-stage reward refinement and deploy the policy on real quadrotors in a zero-shot manner. To our knowledge, this is the first work to derive and deploy an RL-based policy using collective thrust and body rates control commands for multi-UAV pursuit-evasion in unknown environments. The open-source code and videos are available at https://sites.google.com/view/pursuit-evasion-rl.
Abstract（参考訳）: 追跡者が逃走者を捕獲しようとするマルチUAV追跡回避は、UAV群知能にとって重要な課題である。マルチエージェント強化学習(MARL)は協調動作をモデル化する可能性を示しているが、ほとんどのRLベースのアプローチは、限られた力学や固定シナリオによるシミュレーションの単純化に制約されている。現実の追尾回避にRLポリシーを配備する以前の試みは、固定高度での地上車両やUAVのような2次元シナリオに限られていた。本稿では,UAVのダイナミックスと物理的制約を考慮したマルチUAV追従回避手法を提案する。本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。さらに,MARL訓練における適応環境生成手法を提案する。シミュレーションにより,本手法は難解なシナリオにおいてすべてのベースラインを著しく上回り,100%のキャプチャ率で未知のシナリオに一般化する。最後に、2段階の報酬改善を通じて実現可能なポリシーを導出し、ゼロショット方式で実四重項にポリシーを展開する。我々の知る限り、これは未知の環境でのマルチUAV追従回避のための総合推力とボディレート制御コマンドを使用してRLベースのポリシーを導出し、展開する最初の試みである。オープンソースコードとビデオはhttps://sites.google.com/view/pursuit-evasion-rl.comで公開されている。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
SEAL: Towards Safe Autonomous Driving via Skill-Enabled Adversary Learning for Closed-Loop Scenario Generation [13.008446845017454]
学習したスコアリング機能と対人的スキルを活用するシナリオアプローチであるSEALを提案する。 SEAL対応のシナリオはSOTAベースラインよりも現実的であり、実世界、流通中、流通外シナリオ間でのエゴタスクの成功の改善につながります。
論文参考訳（メタデータ） (2024-09-16T14:33:21Z)
Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文参考訳（メタデータ） (2024-09-12T11:50:06Z)
Multi-UAV Multi-RIS QoS-Aware Aerial Communication Systems using DRL and PSO [34.951735976771765]
無人航空機(UAV)は、地上の利用者に無線サービスを提供する学術・産業の研究者の注目を集めている。 UAVの限られたリソースは、そのようなアプリケーションにUAVを採用する上での課題を引き起こす可能性がある。システムモデルでは,地域をナビゲートするUAVスワムを考慮し,RISをサポートした地上ユーザへの無線通信により,UAVのカバレッジを向上させる。
論文参考訳（メタデータ） (2024-06-16T17:53:56Z)
A Dual Curriculum Learning Framework for Multi-UAV Pursuit-Evasion in Diverse Environments [15.959963737956848]
本稿では,無人機群が障害物のある制限された環境で高速離着陸機を捕獲するために協力するマルチUAV追跡回避について述べる。追従回避問題を単純化する既存のアルゴリズムは、しばしば表現力のある協調戦略を欠き、極端なシナリオで回避者を捕まえるのに苦労する。多様な環境下でのマルチUAV追従回避に対処し,未知のシナリオに対するゼロショット転送能力を実証するデュアルカリキュラム学習フレームワークDualCLを導入する。
論文参考訳（メタデータ） (2023-12-19T15:39:09Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文参考訳（メタデータ） (2022-10-06T20:28:55Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Evolutionary Multi-Objective Reinforcement Learning Based Trajectory Control and Task Offloading in UAV-Assisted Mobile Edge Computing [8.168647937560504]
本稿では,無人航空機(UAV)を用いた移動体エッジコンピューティングシステムにおける軌道制御とタスクオフロード(TCTO)問題について検討する。進化的多目的RL(EMORL)、多目的RLをTCTO問題に適用する。
論文参考訳（メタデータ） (2022-02-24T11:17:30Z)
Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文参考訳（メタデータ） (2020-02-14T13:57:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。