Fugu-MT 論文翻訳(概要): Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with Reward Shaping

論文の概要: Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with Reward Shaping

arxiv url: http://arxiv.org/abs/2003.12863v2
Date: Fri, 10 Apr 2020 00:56:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-19 00:01:54.629270
Title: Obstacle Avoidance and Navigation Utilizing Reinforcement Learning with Reward Shaping
Title（参考訳）: 報酬シェーピングを用いた強化学習による障害物回避とナビゲーション
Authors: Daniel Zhang, Colleen P. Bailey
Abstract要約: 我々は,改良された報酬形成技術を用いて,Deep Deterministic Policy Gradient (DDPG) と Proximal Policy Optimizationアルゴリズムを提案する。本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。
参考スコア（独自算出の注目度）: 7.132368785057316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate the obstacle avoidance and navigation problem in the robotic control area. For solving such a problem, we propose revised Deep Deterministic Policy Gradient (DDPG) and Proximal Policy Optimization algorithms with an improved reward shaping technique. We compare the performances between the original DDPG and PPO with the revised version of both on simulations with a real mobile robot and demonstrate that the proposed algorithms achieve better results.
Abstract（参考訳）: 本稿では,ロボット制御領域における障害物回避とナビゲーション問題について検討する。このような問題を解決するために,改良された報酬形成手法を用いて,DDPG(Deep Deterministic Policy Gradient)とPximal Policy Optimizationアルゴリズムを提案する。本研究では,従来のDDPGとPPOの性能と実際の移動ロボットによるシミュレーションの改訂版を比較し,提案アルゴリズムがより良い結果を得ることを示す。

関連論文リスト

Hierarchical Deep Deterministic Policy Gradient for Autonomous Maze Navigation of Mobile Robots [5.834520772858807]
本稿では,高レベルかつ低レベルなポリシーを含む効率的な階層DDPG(HDDPG)アルゴリズムを提案する。これは標準DDPGとそのバリエーションの制限を大幅に克服し、成功率を56.59%以上改善し、平均報酬を519.03以上引き上げた。
論文参考訳（メタデータ） (2025-08-07T03:06:22Z)
Multi-Objective Reinforcement Learning for Cognitive Radar Resource Management [13.322245764325125]
我々はこれを多目的最適化問題として定式化し、より深い強化学習を用いて最適解を求める。本結果は,両アルゴリズムが様々なシナリオに適応できることを示す。この研究は、より効率的で適応的な認知レーダシステムの開発に寄与する。
論文参考訳（メタデータ） (2025-06-25T21:56:30Z)
Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout [13.945240113332352]
本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。 PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
論文参考訳（メタデータ） (2024-11-09T09:44:03Z)
Deep Reinforcement Learning for Online Optimal Execution Strategies [49.1574468325115]
本稿では,動的な金融市場における非マルコフ的最適実行戦略の学習に挑戦する。我々は,Deep Deterministic Policy Gradient(DDPG)に基づく新しいアクター批判アルゴリズムを提案する。提案アルゴリズムは最適実行戦略の近似に成功していることを示す。
論文参考訳（メタデータ） (2024-10-17T12:38:08Z)
Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning [1.3725832537448668]
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2024-07-18T05:18:59Z)
An Improved Artificial Fish Swarm Algorithm for Solving the Problem of Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-20T09:35:51Z)
Reinforcement Learning for Robot Navigation with Adaptive Forward Simulation Time (AFST) in a Semi-Markov Model [20.91419349793292]
本稿では,この問題を解決するために,半マルコフ決定プロセス (SMDP) と連続的な動作空間を持つDRLベースのナビゲーション手法であるAdaptive Forward Time Simulation (AFST) を提案する。
論文参考訳（メタデータ） (2021-08-13T10:30:25Z)
Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文参考訳（メタデータ） (2021-05-08T16:29:20Z)
XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文参考訳（メタデータ） (2021-04-22T01:33:10Z)
Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。 D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文参考訳（メタデータ） (2021-02-23T15:33:57Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Implementation Matters in Deep Policy Gradients: A Case Study on PPO and TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。具体的には,「コードレベルの最適化」の結果について検討する。以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文参考訳（メタデータ） (2020-05-25T16:24:59Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。