論文の概要: Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with
Reward Shaping
- arxiv url: http://arxiv.org/abs/2003.12863v2
- Date: Fri, 10 Apr 2020 00:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 00:01:54.629270
- Title: Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with
Reward Shaping
- Title(参考訳): 報酬シェーピングを用いた強化学習による障害物回避とナビゲーション
- Authors: Daniel Zhang, Colleen P. Bailey
- Abstract要約: 我々は,改良された報酬形成技術を用いて,Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimizationアルゴリズムを提案する。
本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。
- 参考スコア(独自算出の注目度): 7.132368785057316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the obstacle avoidance and navigation problem
in the robotic control area. For solving such a problem, we propose revised
Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization
algorithms with an improved reward shaping technique. We compare the
performances between the original DDPG and PPO with the revised version of both
on simulations with a real mobile robot and demonstrate that the proposed
algorithms achieve better results.
- Abstract(参考訳): 本稿では,ロボット制御領域における障害物回避とナビゲーション問題について検討する。
このような問題を解決するために,改良された報酬形成手法を用いて,DDPG(Deep Deterministic Policy Gradient)とPximal Policy Optimizationアルゴリズムを提案する。
本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。
関連論文リスト
- Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout [13.945240113332352]
本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。
PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
論文 参考訳(メタデータ) (2024-11-09T09:44:03Z) - Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。
我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。
提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文 参考訳(メタデータ) (2024-10-17T12:38:08Z) - Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning [1.3725832537448668]
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。
その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T05:18:59Z) - An Improved Artificial Fish Swarm Algorithm for Solving the Problem of
Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。
適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。
実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:35:51Z) - Reinforcement Learning for Robot Navigation with Adaptive Forward
Simulation Time (AFST) in a Semi-Markov Model [20.91419349793292]
本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
論文 参考訳(メタデータ) (2021-08-13T10:30:25Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。