論文の概要: UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission
- arxiv url: http://arxiv.org/abs/2302.10669v1
- Date: Tue, 21 Feb 2023 13:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:01:23.836856
- Title: UAV Path Planning Employing MPC- Reinforcement Learning Method for
search and rescue mission
- Title(参考訳): MPCを活用したUAV経路計画-捜索救助任務のための強化学習法
- Authors: Mahya Ramezani, Hamed Habibi, Jose luis Sanchez Lopez, Holger Voos
- Abstract要約: 複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。
本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we tackle the problem of Unmanned Aerial (UA V) path planning
in complex and uncertain environments by designing a Model Predictive Control
(MPC), based on a Long-Short-Term Memory (LSTM) network integrated into the
Deep Deterministic Policy Gradient algorithm. In the proposed solution,
LSTM-MPC operates as a deterministic policy within the DDPG network, and it
leverages a predicting pool to store predicted future states and actions for
improved robustness and efficiency. The use of the predicting pool also enables
the initialization of the critic network, leading to improved convergence speed
and reduced failure rate compared to traditional reinforcement learning and
deep reinforcement learning methods. The effectiveness of the proposed solution
is evaluated by numerical simulations.
- Abstract(参考訳): 本稿では,Long-Short-Term Memory (LSTM) ネットワークをDeep Deterministic Policy Gradientアルゴリズムに統合したモデル予測制御(MPC)を設計することにより,複雑で不確実な環境における無人航空路計画の課題に取り組む。
提案手法では,LSTM-MPCはDDPGネットワーク内の決定論的ポリシとして動作し,予測プールを利用して将来の状態と動作を記憶し,堅牢性と効率を向上させる。
また、予測プールを用いることで、批評家ネットワークの初期化が可能となり、従来の強化学習や深層強化学習に比べて収束速度と失敗率が改善される。
提案手法の有効性を数値シミュレーションにより評価した。
関連論文リスト
- SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics [13.129654942805846]
モデル予測制御(MP)に基づく軌道計画が広く使われており、制御バリア(CBF)はその制約を改善することができる。
本稿では,CBF-MPC軌道計画のための自己教師付き学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-15T09:38:52Z) - Distributed Multi-Objective Dynamic Offloading Scheduling for Air-Ground Cooperative MEC [13.71241401034042]
本稿では,MORLとカーネル手法を統合した分散軌道計画とオフロードスケジューリング手法を提案する。
数値的な結果から,n段階の戻り値はカーネルベースのアプローチに有効であり,長期平均バックログ性能の大幅な向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-03-16T13:50:31Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning
Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。
非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。
ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。
増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:16:28Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A
Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。
損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。
解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-04-13T13:52:22Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z) - Optimal Inspection and Maintenance Planning for Deteriorating Structural
Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。
本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。
その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文 参考訳(メタデータ) (2020-09-09T20:03:42Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。