論文の概要: An Imitative Reinforcement Learning Framework for Autonomous Dogfight
- arxiv url: http://arxiv.org/abs/2406.11562v1
- Date: Mon, 17 Jun 2024 13:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-18 14:32:20.247166
- Title: An Imitative Reinforcement Learning Framework for Autonomous Dogfight
- Title(参考訳): 自律型ドッグファイトのためのImmitative Reinforcement Learning Framework
- Authors: Siyuan Li, Rongchang Zuo, Peng Liu, Yingnan Zhao,
- Abstract要約: 無人戦闘空母(UCAV)は、空戦において決定的な役割を担っている。
本稿では,自律的な探索を可能にしつつ,専門家データを効率的に活用する,新しい擬似強化学習フレームワークを提案する。
提案した枠組みは,UCAVの「プール・ロック・ローンチ」におけるドッグファイト・ポリシーを成功に導くことができる。
- 参考スコア(独自算出の注目度): 20.150691753213817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Combat Aerial Vehicle (UCAV) dogfight, which refers to a fight between two or more UCAVs usually at close quarters, plays a decisive role on the aerial battlefields. With the evolution of artificial intelligence, dogfight progressively transits towards intelligent and autonomous modes. However, the development of autonomous dogfight policy learning is hindered by challenges such as weak exploration capabilities, low learning efficiency, and unrealistic simulated environments. To overcome these challenges, this paper proposes a novel imitative reinforcement learning framework, which efficiently leverages expert data while enabling autonomous exploration. The proposed framework not only enhances learning efficiency through expert imitation, but also ensures adaptability to dynamic environments via autonomous exploration with reinforcement learning. Therefore, the proposed framework can learn a successful dogfight policy of 'pursuit-lock-launch' for UCAVs. To support data-driven learning, we establish a dogfight environment based on the Harfang3D sandbox, where we conduct extensive experiments. The results indicate that the proposed framework excels in multistage dogfight, significantly outperforms state-of-the-art reinforcement learning and imitation learning methods. Thanks to the ability of imitating experts and autonomous exploration, our framework can quickly learn the critical knowledge in complex aerial combat tasks, achieving up to a 100% success rate and demonstrating excellent robustness.
- Abstract(参考訳): 無人戦闘空母戦闘機(Unmanned Combat Aerial Vehicle, UCAV)は、通常クローズクォーターで2機以上のUCAVとの戦いであり、戦場において決定的な役割を担っている。
人工知能の進化に伴い、ドッグファイトは徐々にインテリジェントで自律的なモードへと移行していく。
しかし、自律型ドッグファイト政策学習の開発は、弱い探索能力、低い学習効率、非現実的なシミュレーション環境といった課題によって妨げられている。
これらの課題を克服するために,専門家データを有効活用し,自律的な探索を可能にする,新しい模倣強化学習フレームワークを提案する。
提案フレームワークは,専門家の模倣による学習効率の向上だけでなく,強化学習による自律探索による動的環境への適応性も確保する。
そこで,提案手法はUCAVの「プール・ロック・ローンチ」におけるドッグファイト・ポリシーをうまく学習することができる。
データ駆動学習を支援するため,Harfang3Dサンドボックスをベースとしたドッグファイト環境を構築し,広範囲な実験を行った。
その結果, 提案手法は多段階のドッグファイトにおいて優れ, 最先端の強化学習や模倣学習よりも優れていたことが示唆された。
専門家を模倣する能力と自律探査により、我々のフレームワークは複雑な空中戦闘タスクにおける重要な知識を素早く習得し、100%の成功率を達成し、優れた堅牢性を示すことができる。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Coordinated Strategies in Realistic Air Combat by Hierarchical Multi-Agent Reinforcement Learning [39.38793354038274]
本稿では,これらの課題に対処するために,新しい3次元マルチエージェント空気戦闘環境と階層型マルチエージェント強化学習フレームワークを導入する。
提案手法は,異種エージェントのダイナミックス,カリキュラム学習,リーグプレイ,新たに適応したトレーニングアルゴリズムを組み合わせる。
実験の結果,我々の階層的アプローチは,複雑なドッグファイトシナリオにおける学習効率と戦闘性能を両立させることがわかった。
論文 参考訳(メタデータ) (2025-10-13T14:44:51Z) - Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。
重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。
本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文 参考訳(メタデータ) (2025-09-11T11:10:08Z) - Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。
本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。
エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。
我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文 参考訳(メタデータ) (2025-08-01T13:55:39Z) - Training Environment for High Performance Reinforcement Learning [0.0]
トンネルは高性能航空機のための強化学習環境である。
F16の非線形飛行ダイナミクスをOpenAI Gymnasium pythonパッケージに統合する。
論文 参考訳(メタデータ) (2025-05-04T01:09:15Z) - Autonomous Decision Making for UAV Cooperative Pursuit-Evasion Game with Reinforcement Learning [50.33447711072726]
本稿では,マルチロールUAV協調追従ゲームにおける意思決定のための深層強化学習モデルを提案する。
提案手法は,追従回避ゲームシナリオにおけるUAVの自律的意思決定を可能にする。
論文 参考訳(メタデータ) (2024-11-05T10:45:30Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - SLIM: Skill Learning with Multiple Critics [8.645929825516818]
自己指導型スキル学習は、環境の基盤となるダイナミクスを活用する有用な行動を取得することを目的としている。
相互情報に基づく潜在変数モデルは、このタスクでは成功したが、ロボット操作の文脈では依然として苦戦している。
SLIMは,ロボット操作に特化して,スキル発見のための多批判学習手法である。
論文 参考訳(メタデータ) (2024-02-01T18:07:33Z) - Autonomous Agent for Beyond Visual Range Air Combat: A Deep
Reinforcement Learning Approach [0.2578242050187029]
本研究は, 遠近視域(BVR)空戦シミュレーション環境において動作可能な深層強化学習に基づくエージェントの開発に寄与する。
本稿では,BVR戦闘におけるその役割を学習し,改善することができる高性能戦闘機のエージェント構築の概要について述べる。
また、仮想シミュレーションを用いて実際のパイロットの能力を調べ、訓練されたエージェントと同じ環境で対話し、パフォーマンスを比較することを望んでいる。
論文 参考訳(メタデータ) (2023-04-19T13:54:37Z) - Robust and Versatile Bipedal Jumping Control through Reinforcement
Learning [141.56016556936865]
この研究は、トルク制御された二足歩行ロボットが実世界で頑丈で多目的なダイナミックジャンプを行えるようにすることで、二足歩行ロボットの機敏さの限界を推し進めることを目的としている。
本稿では,ロボットが様々な場所や方向へジャンプするなど,さまざまなジャンプタスクを達成するための強化学習フレームワークを提案する。
我々は,ロボットの長期入出力(I/O)履歴を符号化し,短期I/O履歴への直接アクセスを可能にする新しいポリシー構造を開発する。
論文 参考訳(メタデータ) (2023-02-19T01:06:09Z) - Maneuver Decision-Making For Autonomous Air Combat Through Curriculum
Learning And Reinforcement Learning With Sparse Rewards [0.0]
航空戦闘演習決定の3つのカリキュラムは、アングルのカリキュラム、距離のカリキュラム、ハイブリッドのカリキュラムである。
その結果, アングルカリキュラムはトレーニングの速度と安定性を高め, エージェントの性能を向上させることができることがわかった。
機動決定結果はミサイルの特性と一致している。
論文 参考訳(メタデータ) (2023-02-12T02:29:12Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Harfang3D Dog-Fight Sandbox: A Reinforcement Learning Research Platform
for the Customized Control Tasks of Fighter Aircrafts [0.0]
本研究では,戦闘機用の半現実的な飛行シミュレーション環境であるHarfang3D Dog-Fight Sandboxを提案する。
強化学習を用いた航空研究における主な課題を調査するための柔軟なツールボックスである。
ソフトウェアはまた、ボット航空機の配備とマルチエージェントタスクの開発を可能にする。
論文 参考訳(メタデータ) (2022-10-13T18:18:09Z) - A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a
Platform [0.0]
物理シミュレーションプラットフォーム(ROS-RL)の一種であるGazeboに基づく強化学習フレームワークを提案する。
我々は,自律着陸問題に対処するために,3つの連続行動空間強化学習アルゴリズムをフレームワークに使用した。
論文 参考訳(メタデータ) (2022-09-07T06:33:57Z) - Reinforcement Learning based Air Combat Maneuver Generation [0.0]
本研究では,2次元空間内を最適経路で移動するための双極体動特性を持つUAVを目標とした。
2つの異なる環境でテストを行い、シミュレーションを使用しました。
論文 参考訳(メタデータ) (2022-01-14T15:55:44Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Learning Agile Locomotion via Adversarial Training [59.03007947334165]
本稿では,四足歩行ロボット(主人公)が他のロボット(敵)を追いかけるのを学習し,後者が逃げることを学習するマルチエージェント学習システムを提案する。
この敵対的なトレーニングプロセスは、アジャイルの振る舞いを促進するだけでなく、退屈な環境設計の努力を効果的に軽減します。
1つの敵のみを使用した以前の作品とは対照的に、異なる逃走戦略を専門とする敵のアンサンブルを訓練することは、主人公がアジリティを習得するために不可欠である。
論文 参考訳(メタデータ) (2020-08-03T01:20:37Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。