論文の概要: Reinforcement Learning for Robot Navigation with Adaptive
ExecutionDuration (AED) in a Semi-Markov Model
- arxiv url: http://arxiv.org/abs/2108.06161v1
- Date: Fri, 13 Aug 2021 10:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 17:13:29.219368
- Title: Reinforcement Learning for Robot Navigation with Adaptive
ExecutionDuration (AED) in a Semi-Markov Model
- Title(参考訳): 半マルコフモデルを用いた適応実行変調(AED)を用いたロボットナビゲーションの強化学習
- Authors: Yu'an Chen, Ruosong Ye, Ziyang Tao, Hongjian Liu, Guangda Chen, Jie
Peng, Jun Ma, Yu Zhang, Yanyong Zhang and Jianmin Ji
- Abstract要約: 深層強化学習アルゴリズムはロボットナビゲーション、特に未知の環境で有効であることが証明されている。
既存の方法の多くは、一定間隔でコマンドを実行するロボットによる一様実行時間を採用している。
いくつかの期間値はDRLモデルにナビゲーションパスを見つけるのに失敗する可能性がある。
本稿では,この問題を克服するために適応実行時間を用いることを提案する。
- 参考スコア(独自算出の注目度): 17.012115276004753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) algorithms have proven effective in robot
navigation, especially in unknown environments, through directly mapping
perception inputs into robot control commands. Most existing methods adopt
uniform execution duration with robots taking commands at fixed intervals. As
such, the length of execution duration becomes a crucial parameter to the
navigation algorithm. In particular, if the duration is too short, then the
navigation policy would be executed at a high frequency, with increased
training difficulty and high computational cost. Meanwhile, if the duration is
too long, then the policy becomes unable to handle complex situations, like
those with crowded obstacles. It is thus tricky to find the "sweet" duration
range; some duration values may render a DRL model to fail to find a navigation
path. In this paper, we propose to employ adaptive execution duration to
overcome this problem. Specifically, we formulate the navigation task as a
Semi-Markov Decision Process (SMDP) problem to handle adaptive execution
duration. We also improve the distributed proximal policy optimization (DPPO)
algorithm and provide its theoretical guarantee for the specified SMDP problem.
We evaluate our approach both in the simulator and on an actual robot. The
results show that our approach outperforms the other DRL-based method (with
fixed execution duration) by 10.3% in terms of the navigation success rate.
- Abstract(参考訳): 深部強化学習(DRL)アルゴリズムは、知覚入力を直接ロボット制御コマンドにマッピングすることで、特に未知の環境でロボットナビゲーションに有効であることが証明されている。
既存の方法の多くは、一定間隔でコマンドを実行するロボットによる一様実行時間を採用している。
そのため、実行期間の長さはナビゲーションアルゴリズムにとって重要なパラメータとなる。
特に、継続時間が短すぎる場合、ナビゲーションポリシーは高い頻度で実行され、トレーニングの困難さと高い計算コストが増大する。
一方、期間が長すぎると、ポリシーは混雑した障害のあるような複雑な状況を扱うことができない。
従って、"スイート"期間範囲を見つけるのが難しい。いくつかの期間値は、DRLモデルにナビゲーションパスを見つけるのに失敗する可能性がある。
本稿では,この問題を克服するために適応実行時間を用いることを提案する。
具体的には,適応実行時間を扱う半マルコフ決定プロセス(smdp)問題としてナビゲーションタスクを定式化する。
また、分散近似ポリシー最適化(DPPO)アルゴリズムを改善し、SMDP問題に対する理論的保証を提供する。
我々はシミュレーターと実際のロボットの両方でアプローチを評価した。
その結果,本手法はナビゲーション成功率において,他のDRL法よりも10.3%優れていた。
関連論文リスト
- Deep-Sea A*+: An Advanced Path Planning Method Integrating Enhanced A* and Dynamic Window Approach for Autonomous Underwater Vehicles [1.3807821497779342]
深海環境における極度の環境は、水中での作戦に重大な課題をもたらす。
改良されたA*アルゴリズムと動的ウィンドウアプローチ(DWA)を統合した高度な経路計画手法を提案する。
提案手法は,経路の滑らかさ,障害物回避,リアルタイム性能の観点から,従来のA*アルゴリズムを超越した手法である。
論文 参考訳(メタデータ) (2024-10-22T07:29:05Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Guidance Design for Escape Flight Vehicle Using Evolution Strategy Enhanced Deep Reinforcement Learning [6.037202026682975]
本研究では,DRLに基づく誘導コマンドと,比例航法に基づく追尾航法(PFV)に基づく誘導コマンドを生成するシナリオを考察する。
EFVの場合、誘導設計の目的は、与えられた回避距離によって課される制約を受けながら、残留速度を段階的に最大化することである。
最初のステップでは、近いポリシー最適化(PPO)アルゴリズムを使用して、EFVのガイダンスコマンドを生成する。
第2のステップでは、PPOの結果をモデルとして、進化戦略(ES)に基づくアルゴリズムの実行を提案する。
論文 参考訳(メタデータ) (2024-05-04T06:18:15Z) - Variational Autoencoders for exteroceptive perception in reinforcement learning-based collision avoidance [0.0]
Deep Reinforcement Learning (DRL) は有望な制御フレームワークとして登場した。
現在のDRLアルゴリズムは、ほぼ最適ポリシーを見つけるために不均等な計算資源を必要とする。
本稿では,海洋制御システムにおける提案手法の総合的な探索について述べる。
論文 参考訳(メタデータ) (2024-03-31T09:25:28Z) - GP-guided MPPI for Efficient Navigation in Complex Unknown Cluttered
Environments [2.982218441172364]
本研究では,モデル予測パスインターガル(MPPI)と局所知覚モデルを統合するオンライン学習ベースの制御戦略であるGP-MPPIを提案する。
我々は,2次元自律ナビゲーションタスクのシミュレーションおよび実世界の実験を通じて,提案した制御戦略の効率性とロバスト性を検証する。
論文 参考訳(メタデータ) (2023-07-08T17:33:20Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。