論文の概要: Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.08074v1
- Date: Wed, 20 Jan 2021 11:23:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 06:40:00.832734
- Title: Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning
- Title(参考訳): 深部強化学習による固定翼UAVの動的スクワッドとの衝突回避
- Authors: Chao Yan, Xiaojia Xiang, Chang Wang, Zhen Lan
- Abstract要約: 深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
- 参考スコア(独自算出の注目度): 2.555094847583209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing the collision-free flocking behavior for a dynamic squad of
fixed-wing UAVs is still a challenge due to kinematic complexity and
environmental uncertainty. In this paper, we deal with the decentralized
leader-follower flocking control problem through deep reinforcement learning
(DRL). Specifically, we formulate a decentralized DRL-based decision making
framework from the perspective of every follower, where a collision avoidance
mechanism is integrated into the flocking controller. Then, we propose a novel
reinforcement learning algorithm CACER-II for training a shared control policy
for all the followers. Besides, we design a plug-n-play embedding module based
on convolutional neural networks and the attention mechanism. As a result, the
variable-length system state can be encoded into a fixed-length embedding
vector, which makes the learned DRL policies independent with the number or the
order of followers. Finally, numerical simulation results demonstrate the
effectiveness of the proposed method, and the learned policies can be directly
transferred to semiphysical simulation without any parameter finetuning.
- Abstract(参考訳): 固定翼uavの動的スクワッドに対する衝突のない群集挙動の開発は、運動の複雑さと環境の不確実性のために依然として課題である。
本稿では、深層強化学習(DRL)を通して、分散化リーダ・フォロワー・フラッキング制御問題に対処する。
具体的には、衝突回避機構をフロッキングコントローラに統合する、各追従者の視点から、分散DRLに基づく意思決定フレームワークを定式化する。
そこで我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
さらに、畳み込みニューラルネットワークとアテンション機構に基づくプラグインn-play埋め込みモジュールを設計する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
最後に, 数値シミュレーションの結果から提案手法の有効性が示され, パラメータの微調整なしに, 学習方針を直接半物理シミュレーションに転送することができる。
関連論文リスト
- Neural Internal Model Control: Learning a Robust Control Policy via Predictive Error Feedback [16.46487826869775]
本稿では,モデルベース制御とRLベース制御を統合し,ロバスト性を高めるニューラル内部モデル制御を提案する。
我々のフレームワークは、剛体力学にニュートン・オイラー方程式を適用することで予測モデルを合理化し、複雑な高次元非線形性を捉える必要がなくなる。
本研究では,四足歩行ロボットと四足歩行ロボットにおけるフレームワークの有効性を実証し,最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T07:07:42Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Partial End-to-end Reinforcement Learning for Robustness Against Modelling Error in Autonomous Racing [0.0]
本稿では、自動運転車における強化学習(RL)ソリューションの性能向上の問題に対処する。
計画タスクと制御タスクを分離する部分的なエンドツーエンドアルゴリズムを提案する。
従来の制御器のロバスト性を活用することにより,本アルゴリズムは標準のエンドツーエンドアルゴリズムよりもモデルミスマッチに対するロバスト性を向上する。
論文 参考訳(メタデータ) (2023-12-11T14:27:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Enhancing Cyber Resilience of Networked Microgrids using Vertical
Federated Reinforcement Learning [3.9338764026621758]
本稿では,ネットワーク化されたマイクログリッドのサイバーレジリエンスを高めるために,フェデレーション強化学習(Fed-RL)手法を提案する。
マルチパーティ所有のネットワークグリッドにおけるデータ共有の問題やプライバシに関する懸念を回避するために,RLエージェントをトレーニングするための新しいFed-RLアルゴリズムを提案する。
提案手法は改良型IEEE 123-busベンチマークシステムの数値例を用いて検証した。
論文 参考訳(メタデータ) (2022-12-17T22:56:02Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。