論文の概要: A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV
Air-to-Air Combat
- arxiv url: http://arxiv.org/abs/2212.03830v1
- Date: Mon, 5 Dec 2022 07:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:52:19.791629
- Title: A Hierarchical Deep Reinforcement Learning Framework for 6-DOF UCAV
Air-to-Air Combat
- Title(参考訳): 6自由度UCAV空対空コンバットの階層的深部強化学習フレームワーク
- Authors: Jiajun Chai, Wenzhang Chen, Yuanheng Zhu, Zong-xin Yao, Dongbin Zhao
- Abstract要約: 本稿では,空対空戦闘問題を解決するための一般的な階層的枠組みを提案する。
中心となる考え方は、決定プロセス全体を2つのループに分割し、強化学習(RL)を使用してそれらを分離することである。
実験結果から、内部ループ制御器は微調整PID制御器よりも優れた追従性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 7.986704237837539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned combat air vehicle (UCAV) combat is a challenging scenario with
continuous action space. In this paper, we propose a general hierarchical
framework to resolve the within-vision-range (WVR) air-to-air combat problem
under 6 dimensions of degree (6-DOF) dynamics. The core idea is to divide the
whole decision process into two loops and use reinforcement learning (RL) to
solve them separately. The outer loop takes into account the current combat
situation and decides the expected macro behavior of the aircraft according to
a combat strategy. Then the inner loop tracks the macro behavior with a flight
controller by calculating the actual input signals for the aircraft. We design
the Markov decision process for both the outer loop strategy and inner loop
controller, and train them by proximal policy optimization (PPO) algorithm. For
the inner loop controller, we design an effective reward function to accurately
track various macro behavior. For the outer loop strategy, we further adopt a
fictitious self-play mechanism to improve the combat performance by constantly
combating against the historical strategies. Experiment results show that the
inner loop controller can achieve better tracking performance than fine-tuned
PID controller, and the outer loop strategy can perform complex maneuvers to
get higher and higher winning rate, with the generation evolves.
- Abstract(参考訳): 無人戦闘航空(UCAV)戦闘は、連続行動空間において困難なシナリオである。
本稿では,6次元(6-DOF)のダイナミックスの下での空対空戦闘問題を解決するための一般的な階層的枠組みを提案する。
中心となる考え方は、決定プロセス全体を2つのループに分割し、強化学習(RL)を使用してそれらを分離することである。
外ループは現在の戦闘状況を考慮して、戦闘戦略に従って航空機の期待されるマクロ行動を決定する。
次に、インナーループは、航空機の実際の入力信号を計算して、フライトコントローラでマクロ動作を追跡する。
我々は,外ループ戦略と内ループ制御の両方に対してマルコフ決定過程を設計し,近似ポリシー最適化(PPO)アルゴリズムを用いて学習する。
インナーループコントローラでは,様々なマクロ動作を正確に追跡する効果的な報酬関数を設計する。
外部ループ戦略では、歴史的戦略に常に対抗して戦闘性能を向上させるための架空の自己プレー機構も採用する。
実験の結果,インナーループコントローラは細調整pidコントローラよりも優れたトラッキング性能を達成でき,アウターループストラテジーは,世代が進化するにつれて,より高い勝利率を得るための複雑な操作を行うことができることがわかった。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - A Reinforcement Learning Approach for Robust Supervisory Control of UAVs
Under Disturbances [1.8799681615947088]
無人航空機(UAV)の監視強化学習制御手法を提案する。
我々は,既存の組込み制御と交差する監視制御アーキテクチャを定式化し,悪風の形での環境障害に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-05-21T19:00:06Z) - UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary
3D Environment [17.531224704021273]
本稿では, 深部強化学習に基づく無人航空機(UAV)の連続制御に着目した。
本稿では,UAVが飛行中の障害物を自動的に回避できる深層強化学習(DRL)法を提案する。
論文 参考訳(メタデータ) (2023-04-07T01:44:05Z) - Learning a Single Near-hover Position Controller for Vastly Different
Quadcopters [56.37274861303324]
本稿では,クワッドコプターのための適応型ニアホバー位置制御器を提案する。
これは、非常に異なる質量、大きさ、運動定数を持つクワッドコプターに展開することができる。
また、実行中に未知の障害に迅速に適応する。
論文 参考訳(メタデータ) (2022-09-19T17:55:05Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Collision-Free Flocking with a Dynamic Squad of Fixed-Wing UAVs Using
Deep Reinforcement Learning [2.555094847583209]
深層強化学習(DRL)による分散型リーダ・フォロワリング制御問題に対処する。
我々は,すべてのフォロワーに対して共有制御ポリシーを学習するための新しい強化学習アルゴリズムCACER-IIを提案する。
その結果、可変長系状態を固定長埋め込みベクトルに符号化することができ、学習されたDRLポリシーをフォロワーの数や順序と独立にすることができる。
論文 参考訳(メタデータ) (2021-01-20T11:23:35Z) - Deep Reinforcement Learning with Embedded LQR Controllers [1.256413718364189]
本稿では,LQR制御をアクションセットに統合し,リプレイメモリにおける計算制御の一般化と回避を可能にする手法を提案する。
いずれの場合も、LQR制御の追加はパフォーマンスを向上させることができるが、離散的なアクションセットを強化するために使用できる場合、効果はより重大である。
論文 参考訳(メタデータ) (2021-01-18T17:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。