Fugu-MT 論文翻訳(概要): Reinforcement Learning for Robot Navigation with Adaptive Forward Simulation Time (AFST) in a Semi-Markov Model

論文の概要: Reinforcement Learning for Robot Navigation with Adaptive Forward Simulation Time (AFST) in a Semi-Markov Model

arxiv url: http://arxiv.org/abs/2108.06161v4
Date: Tue, 4 Jul 2023 12:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 00:55:56.070729
Title: Reinforcement Learning for Robot Navigation with Adaptive Forward Simulation Time (AFST) in a Semi-Markov Model
Title（参考訳）: 半マルコフモデルを用いた適応前方シミュレーション時間(AFST)を用いたロボットナビゲーションの強化学習
Authors: Yu'an Chen, Ruosong Ye, Ziyang Tao, Hongjian Liu, Guangda Chen, Jie Peng, Jun Ma, Yu Zhang, Jianmin Ji and Yanyong Zhang
Abstract要約: 本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
参考スコア（独自算出の注目度）: 20.91419349793292
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep reinforcement learning (DRL) algorithms have proven effective in robot navigation, especially in unknown environments, by directly mapping perception inputs into robot control commands. However, most existing methods ignore the local minimum problem in navigation and thereby cannot handle complex unknown environments. In this paper, we propose the first DRL-based navigation method modeled by a semi-Markov decision process (SMDP) with continuous action space, named Adaptive Forward Simulation Time (AFST), to overcome this problem. Specifically, we reduce the dimensions of the action space and improve the distributed proximal policy optimization (DPPO) algorithm for the specified SMDP problem by modifying its GAE to better estimate the policy gradient in SMDPs. Experiments in various unknown environments demonstrate the effectiveness of AFST.
Abstract（参考訳）: 深部強化学習(DRL)アルゴリズムは、知覚入力を直接ロボット制御コマンドにマッピングすることで、特に未知の環境でロボットナビゲーションに有効であることが証明されている。しかし、既存の手法の多くはナビゲーションの局所的な最小問題を無視しており、複雑な未知の環境を扱えない。本稿では,適応フォワードシミュレーション時間 (AFST) と呼ばれる連続的な行動空間を持つ半マルコフ決定プロセス (SMDP) でモデル化されたDRLベースのナビゲーション手法を提案する。具体的には,動作空間の次元を小さくし,特定のSMDP問題に対する分散近似ポリシー最適化(DPPO)アルゴリズムを改良し,GAEを修正してSMDPのポリシー勾配をより正確に推定する。様々な未知環境における実験は、AFSTの有効性を示す。

関連論文リスト

Deep-Sea A*+: An Advanced Path Planning Method Integrating Enhanced A* and Dynamic Window Approach for Autonomous Underwater Vehicles [1.3807821497779342]
深海環境における極度の環境は、水中での作戦に重大な課題をもたらす。改良されたA*アルゴリズムと動的ウィンドウアプローチ(DWA)を統合した高度な経路計画手法を提案する。提案手法は,経路の滑らかさ,障害物回避,リアルタイム性能の観点から,従来のA*アルゴリズムを超越した手法である。
論文参考訳（メタデータ） (2024-10-22T07:29:05Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement Learning [6.037202026682975]
本研究では,DRLに基づく誘導コマンドと,比例航法に基づく追尾航法(PFV)に基づく誘導コマンドを生成するシナリオを考察する。 EFVの場合、誘導設計の目的は、与えられた回避距離によって課される制約を受けながら、残留速度を段階的に最大化することである。最初のステップでは、近いポリシー最適化(PPO)アルゴリズムを使用して、EFVのガイダンスコマンドを生成する。第2のステップでは、PPOの結果をモデルとして、進化戦略(ES)に基づくアルゴリズムの実行を提案する。
論文参考訳（メタデータ） (2024-05-04T06:18:15Z)
Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文参考訳（メタデータ） (2024-03-31T09:25:28Z)
GP-guided MPPI for Efficient Navigation in Complex Unknown Cluttered Environments [2.982218441172364]
本研究では,モデル予測パスインターガル(MPPI)と局所知覚モデルを統合するオンライン学習ベースの制御戦略であるGP-MPPIを提案する。我々は,2次元自律ナビゲーションタスクのシミュレーションおよび実世界の実験を通じて,提案した制御戦略の効率性とロバスト性を検証する。
論文参考訳（メタデータ） (2023-07-08T17:33:20Z)
DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文参考訳（メタデータ） (2023-01-18T11:02:06Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Zeroth-Order Actor-Critic: An Evolutionary Framework for Sequential Decision Problems [17.713459311502636]
逐次決定問題(SDP)を解決するため,ZOAC(Zeroth-Order Actor-Critic)の進化的枠組みを提案する。 ZOACはパラメータ空間を段階的に探索し、理論上はゼロ階ポリシー勾配を導出する。この問題を静的な最適化として扱うEAを著しく上回り、一階情報なしでも勾配ベースのRL法の性能に匹敵する。
論文参考訳（メタデータ） (2022-01-29T07:09:03Z)
Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文参考訳（メタデータ） (2021-12-20T13:13:05Z)
SABER: Data-Driven Motion Planner for Autonomously Navigating Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文参考訳（メタデータ） (2021-08-03T02:56:21Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。