論文の概要: Reinforcement learning reward function in unmanned aerial vehicle
control tasks
- arxiv url: http://arxiv.org/abs/2203.10519v1
- Date: Sun, 20 Mar 2022 10:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 19:24:36.282308
- Title: Reinforcement learning reward function in unmanned aerial vehicle
control tasks
- Title(参考訳): 無人航空機制御作業における強化学習報酬関数
- Authors: Mikhail S. Tovarnov and Nikita V. Bykov
- Abstract要約: 報酬関数は、目標に対する簡易な軌道の時間の構成と推定に基づいている。
新たに開発された仮想環境において,報酬関数の有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new reward function that can be used for deep
reinforcement learning in unmanned aerial vehicle (UAV) control and navigation
problems. The reward function is based on the construction and estimation of
the time of simplified trajectories to the target, which are third-order Bezier
curves. This reward function can be applied unchanged to solve problems in both
two-dimensional and three-dimensional virtual environments. The effectiveness
of the reward function was tested in a newly developed virtual environment,
namely, a simplified two-dimensional environment describing the dynamics of UAV
control and flight, taking into account the forces of thrust, inertia, gravity,
and aerodynamic drag. In this formulation, three tasks of UAV control and
navigation were successfully solved: UAV flight to a given point in space,
avoidance of interception by another UAV, and organization of interception of
one UAV by another. The three most relevant modern deep reinforcement learning
algorithms, Soft actor-critic, Deep Deterministic Policy Gradient, and Twin
Delayed Deep Deterministic Policy Gradient were used. All three algorithms
performed well, indicating the effectiveness of the selected reward function.
- Abstract(参考訳): 本稿では,無人航空機(uav)制御と航法問題において,深層強化学習に使用できる新たな報酬関数を提案する。
報酬関数は、三階ベジエ曲線である目標に対する簡略化された軌跡の時間の構成と推定に基づいている。
この報酬関数は、2次元および3次元の仮想環境の問題を解決するために変更できる。
報酬関数の有効性は, 推力, 慣性, 重力, 空力抵抗の力を考慮して, uav制御と飛行のダイナミクスを記述する簡易な2次元環境として新たに開発された仮想環境において検証された。
この定式化では、UAV制御とナビゲーションの3つのタスクがうまく解決され、UAVは宇宙の特定の地点への飛行、別のUAVによるインターセプションの回避、そして別のUAVによるインターセプションの組織化である。
最も関連性の高い3つの深層強化学習アルゴリズム、ソフトアクタークリティカル、深層決定主義政策グラディエント、ツイン遅延深層決定主義政策グラディエントが使用された。
3つのアルゴリズムはいずれも良好に動作し,選択した報酬関数の有効性を示した。
関連論文リスト
- A Cross-Scene Benchmark for Open-World Drone Active Tracking [54.235808061746525]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATと呼ばれるオープンワールドドローンアクティブトラッキングのためのクロスシーンクロスドメインベンチマークを提案する。
また、R-VATと呼ばれる強化学習に基づくドローン追跡手法を提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - Autonomous Decision Making for UAV Cooperative Pursuit-Evasion Game with Reinforcement Learning [50.33447711072726]
本稿では,マルチロールUAV協調追従ゲームにおける意思決定のための深層強化学習モデルを提案する。
提案手法は,追従回避ゲームシナリオにおけるUAVの自律的意思決定を可能にする。
論文 参考訳(メタデータ) (2024-11-05T10:45:30Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary
3D Environment [17.531224704021273]
本稿では, 深部強化学習に基づく無人航空機(UAV)の連続制御に着目した。
本稿では,UAVが飛行中の障害物を自動的に回避できる深層強化学習(DRL)法を提案する。
論文 参考訳(メタデータ) (2023-04-07T01:44:05Z) - Advanced Algorithms of Collision Free Navigation and Flocking for
Autonomous UAVs [0.0]
本報告は,マルチUAVシステムの自律走行及び運動調整のためのUAV制御の最先端化に寄与する。
本報告の前半は単UAVシステムを扱うもので, 未知・動的環境における3次元(3次元)衝突フリーナビゲーションの複雑な問題に対処する。
本報告では, マルチUAVシステムの安全ナビゲーションについて述べるとともに, フラッキングと3次元領域カバレッジのための多UAVシステムの分散動作調整手法を開発した。
論文 参考訳(メタデータ) (2021-10-30T03:51:40Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - Autonomous and cooperative design of the monitor positions for a team of
UAVs to maximize the quantity and quality of detected objects [0.5801044612920815]
本稿では、完全に未知の地形内にUAVの群れを配置する問題に取り組む。
YOLOv3と複製対象を識別するシステムを用いて、各UAVの構成に1つのスコアを割り当てた。
予め定義されたスコアを最適化できる新しいナビゲーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:52:57Z) - Autonomous UAV Navigation: A DDPG-based Deep Reinforcement Learning
Approach [1.552282932199974]
深層強化学習を用いた自律型UAV経路計画フレームワークを提案する。
目的は、自力で訓練されたUAVを空飛ぶ移動体ユニットとして使用し、空間的に分散した移動または静的な目標に到達することである。
論文 参考訳(メタデータ) (2020-03-21T19:33:00Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。