論文の概要: Reinforcement Learning based Air Combat Maneuver Generation
- arxiv url: http://arxiv.org/abs/2201.05528v1
- Date: Fri, 14 Jan 2022 15:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 17:06:21.730688
- Title: Reinforcement Learning based Air Combat Maneuver Generation
- Title(参考訳): 強化学習に基づく航空戦闘演習生成
- Authors: Muhammed Murat Ozbek and Emre Koyuncu
- Abstract要約: 本研究では,2次元空間内を最適経路で移動するための双極体動特性を持つUAVを目標とした。
2つの異なる環境でテストを行い、シミュレーションを使用しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of artificial intelligence technology paved the way of many
researches to be made within air combat sector. Academicians and many other
researchers did a research on a prominent research direction called autonomous
maneuver decision of UAV. Elaborative researches produced some outcomes, but
decisions that include Reinforcement Learning(RL) came out to be more
efficient. There have been many researches and experiments done to make an
agent reach its target in an optimal way, most prominent are Genetic
Algorithm(GA) , A star, RRT and other various optimization techniques have been
used. But Reinforcement Learning is the well known one for its success. In
DARPHA Alpha Dogfight Trials, reinforcement learning prevailed against a real
veteran F16 human pilot who was trained by Boeing. This successor model was
developed by Heron Systems. After this accomplishment, reinforcement learning
bring tremendous attention on itself. In this research we aimed our UAV which
has a dubin vehicle dynamic property to move to the target in two dimensional
space in an optimal path using Twin Delayed Deep Deterministic Policy Gradients
(TD3) and used in experience replay Hindsight Experience Replay(HER).We did
tests on two different environments and used simulations.
- Abstract(参考訳): 人工知能技術の出現により、多くの研究が航空戦闘部門内で行われるようになった。
学者や他の多くの研究者は、UAVの自律的な操作決定と呼ばれる顕著な研究方向の研究を行った。
詳細な研究によっていくつかの成果が得られたが、強化学習(rl)を含む決定はより効率的であることが判明した。
最適な方法でエージェントを目標に到達させるための研究や実験が数多く行われており、最も顕著なのは遺伝的アルゴリズム(ga)、星、rrt、その他の様々な最適化技術である。
しかし、強化学習はその成功でよく知られている。
DARPHA Alpha Dogfight Trialsでは、ボーイングの訓練を受けた実戦のF16パイロットに対して強化学習が行われた。
この後継モデルはheron systemsによって開発された。
この成果の後、強化学習は自分自身に大きな注目を集めた。
本研究では,双発車両の動的特性を持つUAVをTD3(Twin Delayed Deep Deterministic Policy Gradients)を用いて最適経路で2次元空間で目標に移動させ,HER(Hindsight Experience Replay)を経験的に再現することを目的とした。
2つの異なる環境でテストを行い、シミュレーションを使いました。
関連論文リスト
- Autonomous Decision Making for UAV Cooperative Pursuit-Evasion Game with Reinforcement Learning [50.33447711072726]
本稿では,マルチロールUAV協調追従ゲームにおける意思決定のための深層強化学習モデルを提案する。
提案手法は,追従回避ゲームシナリオにおけるUAVの自律的意思決定を可能にする。
論文 参考訳(メタデータ) (2024-11-05T10:45:30Z) - An Imitative Reinforcement Learning Framework for Autonomous Dogfight [20.150691753213817]
無人戦闘空母(UCAV)は、空戦において決定的な役割を担っている。
本稿では,自律的な探索を可能にしつつ,専門家データを効率的に活用する,新しい擬似強化学習フレームワークを提案する。
提案した枠組みは,UCAVの「プール・ロック・ローンチ」におけるドッグファイト・ポリシーを成功に導くことができる。
論文 参考訳(メタデータ) (2024-06-17T13:59:52Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Human-Centric Aware UAV Trajectory Planning in Search and Rescue
Missions Employing Multi-Objective Reinforcement Learning with AHP and
Similarity-Based Experience Replay [0.0]
本稿では,UAV軌道計画における人中心的要因の影響について検討する。
包括的調査を通じて,UAV設計におけるジェンダー・キューと人格化が公衆の受容と信頼に与える影響を調査した。
論文 参考訳(メタデータ) (2024-02-28T17:10:22Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a
Platform [0.0]
物理シミュレーションプラットフォーム(ROS-RL)の一種であるGazeboに基づく強化学習フレームワークを提案する。
我々は,自律着陸問題に対処するために,3つの連続行動空間強化学習アルゴリズムをフレームワークに使用した。
論文 参考訳(メタデータ) (2022-09-07T06:33:57Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Homotopy Based Reinforcement Learning with Maximum Entropy for
Autonomous Air Combat [3.839929995011407]
強化学習(RL)法はニューラルネットワークを用いて決定時間を著しく短縮することができる。
スパース報酬問題は、その収束速度を制限し、人工的な事前経験報酬は、元のタスクの最適収束方向を容易に逸脱することができる。
本手法では, 相異なる報酬を伴う元のタスクと, 人工的な事前経験報酬を持つ補助タスクとの間のホモトピーパスを追従することで, これらの問題に対処することに焦点を当てた, ホモトピーに基づくソフトアクタ批判法を提案する。
論文 参考訳(メタデータ) (2021-12-01T09:37:55Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。