論文の概要: Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.08074v1
- Date: Wed, 20 Jan 2021 11:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 06:40:00.832734
- Title: Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning
- Title(参考訳): 深部強化学習による固定翼UAVの動的スクワッドとの衝突回避
- Authors: Chao Yan, Xiaojia Xiang, Chang Wang, Zhen Lan
- Abstract要約: 深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
- 参考スコア(独自算出の注目度): 2.555094847583209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing the collision-free flocking behavior for a dynamic squad of
fixed-wing UAVs is still a challenge due to kinematic complexity and
environmental uncertainty. In this paper, we deal with the decentralized
leader-follower flocking control problem through deep reinforcement learning
(DRL). Specifically, we formulate a decentralized DRL-based decision making
framework from the perspective of every follower, where a collision avoidance
mechanism is integrated into the flocking controller. Then, we propose a novel
reinforcement learning algorithm CACER-II for training a shared control policy
for all the followers. Besides, we design a plug-n-play embedding module based
on convolutional neural networks and the attention mechanism. As a result, the
variable-length system state can be encoded into a fixed-length embedding
vector, which makes the learned DRL policies independent with the number or the
order of followers. Finally, numerical simulation results demonstrate the
effectiveness of the proposed method, and the learned policies can be directly
transferred to semiphysical simulation without any parameter finetuning.
- Abstract(参考訳): 固定翼uavの動的スクワッドに対する衝突のない群集挙動の開発は、運動の複雑さと環境の不確実性のために依然として課題である。
本稿では、深層強化学習(DRL)を通して、分散化リーダ・フォロワー・フラッキング制御問題に対処する。
具体的には、衝突回避機構をフロッキングコントローラに統合する、各追従者の視点から、分散DRLに基づく意思決定フレームワークを定式化する。
そこで我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
さらに、畳み込みニューラルネットワークとアテンション機構に基づくプラグインn-play埋め込みモジュールを設計する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
最後に, 数値シミュレーションの結果から提案手法の有効性が示され, パラメータの微調整なしに, 学習方針を直接半物理シミュレーションに転送することができる。
関連論文リスト
- Partial End-to-end Reinforcement Learning for Robustness Against
Modelling Error in Autonomous Racing [0.0]
本稿では、自動運転車における強化学習(RL)ソリューションの性能向上の問題に対処する。
計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
論文 参考訳(メタデータ) (2023-12-11T14:27:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Enhancing Cyber Resilience of Networked Microgrids using Vertical
Federated Reinforcement Learning [3.9338764026621758]
本稿では,ネットワーク化されたマイクログリッドのサイバーレジリエンスを高めるために,フェデレーション強化学習(Fed-RL)手法を提案する。
マルチパーティ所有のネットワークグリッドにおけるデータ共有の問題やプライバシに関する懸念を回避するために,RLエージェントをトレーニングするための新しいFed-RLアルゴリズムを提案する。
提案手法は改良型IEEE 123-busベンチマークシステムの数値例を用いて検証した。
論文 参考訳(メタデータ) (2022-12-17T22:56:02Z) - Integrated Decision and Control for High-Level Automated Vehicles by
Mixed Policy Gradient and Its Experiment Verification [10.393343763237452]
本稿では,IDC(Integrated Decision and Control)に基づく自己進化型意思決定システムを提案する。
制約付き混合ポリシー勾配 (CMPG) と呼ばれるRLアルゴリズムは、IDCの駆動ポリシーを継続的に更新するために提案される。
実験結果から, モデルに基づく手法よりも運転能力の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:58:41Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Steady-State Error Compensation in Reference Tracking and Disturbance
Rejection Problems for Reinforcement Learning-Based Control [0.9023847175654602]
強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。
アクター批判に基づくRLコントローラのためのイニシアティブアクション状態拡張(IASA)が導入される。
この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。
論文 参考訳(メタデータ) (2022-01-31T16:29:19Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Integrating Deep Reinforcement Learning with Model-based Path Planners
for Automated Driving [0.0]
本稿では、経路計画管を視覚ベースのDRLフレームワークに統合するためのハイブリッドアプローチを提案する。
要約すると、DRLエージェントは、パスプランナーのウェイポイントをできるだけ近くに追従するように訓練される。
実験の結果,提案手法は経路を計画し,ランダムに選択した起点-終点間を移動可能であることがわかった。
論文 参考訳(メタデータ) (2020-02-02T17:10:19Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。