Fugu-MT 論文翻訳(概要): UAV Path Planning Employing MPC- Reinforcement Learning Method for search and rescue mission

論文の概要: UAV Path Planning Employing MPC- Reinforcement Learning Method for search and rescue mission

arxiv url: http://arxiv.org/abs/2302.10669v1
Date: Tue, 21 Feb 2023 13:39:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-22 15:01:23.836856
Title: UAV Path Planning Employing MPC- Reinforcement Learning Method for search and rescue mission
Title（参考訳）: MPCを活用したUAV経路計画-捜索救助任務のための強化学習法
Authors: Mahya Ramezani, Hamed Habibi, Jose luis Sanchez Lopez, Holger Voos
Abstract要約: 複雑で不確実な環境での無人航空路計画(UA V)の課題に取り組む。本稿では,Long-Short-Term Memory (LSTM) ネットワークに基づくモデル予測制御(MPC)を,Deep Deterministic Policy Gradientアルゴリズムに統合して設計する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we tackle the problem of Unmanned Aerial (UA V) path planning in complex and uncertain environments by designing a Model Predictive Control (MPC), based on a Long-Short-Term Memory (LSTM) network integrated into the Deep Deterministic Policy Gradient algorithm. In the proposed solution, LSTM-MPC operates as a deterministic policy within the DDPG network, and it leverages a predicting pool to store predicted future states and actions for improved robustness and efficiency. The use of the predicting pool also enables the initialization of the critic network, leading to improved convergence speed and reduced failure rate compared to traditional reinforcement learning and deep reinforcement learning methods. The effectiveness of the proposed solution is evaluated by numerical simulations.
Abstract（参考訳）: 本稿では,Long-Short-Term Memory (LSTM) ネットワークをDeep Deterministic Policy Gradientアルゴリズムに統合したモデル予測制御(MPC)を設計することにより,複雑で不確実な環境における無人航空路計画の課題に取り組む。提案手法では,LSTM-MPCはDDPGネットワーク内の決定論的ポリシとして動作し,予測プールを利用して将来の状態と動作を記憶し,堅牢性と効率を向上させる。また、予測プールを用いることで、批評家ネットワークの初期化が可能となり、従来の強化学習や深層強化学習に比べて収束速度と失敗率が改善される。提案手法の有効性を数値シミュレーションにより評価した。

関連論文リスト

Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文参考訳（メタデータ） (2026-01-09T15:44:49Z)
A New Error Temporal Difference Algorithm for Deep Reinforcement Learning in Microgrid Optimization [5.605678552776343]
本稿では,予測の不確実性に対処する新しい誤り時間差(ETD)アルゴリズムを提案する。再生可能エネルギー源(RES)とエネルギー貯蔵システム(ESS)を統合したマイクログリッドシステムをモデル化する。次に、重み付き平均アルゴリズムと新しいETDアルゴリズムを設計し、予測の不確かさを定量化し対処するディープQネットワーク(DQN)に基づく予測制御手法を提案する。
論文参考訳（メタデータ） (2025-11-22T15:29:18Z)
Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文参考訳（メタデータ） (2025-10-01T12:29:32Z)
Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
Learning Maximal Safe Sets Using Hypernetworks for MPC-based Local Trajectory Planning in Unknown Environments [1.3182466374784207]
本稿では,未知の静的環境における局所軌道計画のための最適集合のオンライン推定のための学習に基づく新しいアプローチを提案する。モデル予測制御(MPC)ローカルプランナの終端セット制約として、集合の神経表現を用いる。我々は,提案手法であるNTC-MPCを物理ロボットに展開し,ベースラインが故障した場合の障害物を安全に回避できることを実証した。
論文参考訳（メタデータ） (2024-10-26T20:37:57Z)
SOMTP: Self-Supervised Learning-Based Optimizer for MPC-Based Safe Trajectory Planning Problems in Robotics [13.129654942805846]
モデル予測制御(MP)に基づく軌道計画が広く使われており、制御バリア(CBF)はその制約を改善することができる。本稿では,CBF-MPC軌道計画のための自己教師付き学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-15T09:38:52Z)
Distributed Multi-Objective Dynamic Offloading Scheduling for Air-Ground Cooperative MEC [13.71241401034042]
本稿では,MORLとカーネル手法を統合した分散軌道計画とオフロードスケジューリング手法を提案する。数値的な結果から,n段階の戻り値はカーネルベースのアプローチに有効であり,長期平均バックログ性能の大幅な向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-03-16T13:50:31Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Active RIS-aided EH-NOMA Networks: A Deep Reinforcement Learning Approach [66.53364438507208]
アクティブな再構成可能なインテリジェントサーフェス(RIS)支援マルチユーザダウンリンク通信システムについて検討した。非直交多重アクセス(NOMA)はスペクトル効率を向上させるために使用され、活性RISはエネルギー回収(EH)によって駆動される。ユーザの動的通信状態を予測するために,高度なLSTMベースのアルゴリズムを開発した。増幅行列と位相シフト行列RISを結合制御するためにDDPGに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-11T13:16:28Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A Machine Learning Approach [102.00221938474344]
再構成可能なインテリジェントサーフェス (STAR-RIS) アシストネットワークを同時に送信および反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。損失関数ベースの更新戦略はコアポイントであり、各更新時にmin-normソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-04-13T13:52:22Z)
On Finite-Sample Analysis of Offline Reinforcement Learning with Deep ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文参考訳（メタデータ） (2021-03-11T14:01:14Z)
Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文参考訳（メタデータ） (2021-02-22T14:28:03Z)
Optimal Inspection and Maintenance Planning for Deteriorating Structural Components through Dynamic Bayesian Networks and Markov Decision Processes [0.0]
部分的に観測可能なマルコフ決定過程(POMDPs)は、不確実な行動結果と観測下での最適制御のための数学的方法論を提供する。本稿では, 有限地平線POMDPを構造的信頼性の文脈で開発するための定式化について述べる。その結果,従来の問題設定においても,POMDPのコストは従来に比べて大幅に低減した。
論文参考訳（メタデータ） (2020-09-09T20:03:42Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。