論文の概要: Deterministic and Stochastic Analysis of Deep Reinforcement Learning for
Low Dimensional Sensing-based Navigation of Mobile Robots
- arxiv url: http://arxiv.org/abs/2209.06328v1
- Date: Tue, 13 Sep 2022 22:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:51:32.530241
- Title: Deterministic and Stochastic Analysis of Deep Reinforcement Learning for
Low Dimensional Sensing-based Navigation of Mobile Robots
- Title(参考訳): 移動ロボットの低次元センシングに基づくナビゲーションのための深層強化学習の決定論的・確率的解析
- Authors: Ricardo B. Grando, Junior C. de Jesus, Victor A. Kich, Alisson H.
Kolling, Rodrigo S. Guerra, Paulo L. J. Drews-Jr
- Abstract要約: 本稿では,2つのDeep-RL手法-Deep Deterministic Policy Gradients (DDPG)とSoft Actor-Critic (SAC)の比較分析を行う。
本研究の目的は,ニューラルネットワークアーキテクチャが学習そのものにどのように影響するかを示し,各アプローチにおける空中移動ロボットの時間と距離に基づいて定量的な結果を示すことである。
- 参考スコア(独自算出の注目度): 0.41562334038629606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deterministic and Stochastic techniques in Deep Reinforcement Learning
(Deep-RL) have become a promising solution to improve motion control and the
decision-making tasks for a wide variety of robots. Previous works showed that
these Deep-RL algorithms can be applied to perform mapless navigation of mobile
robots in general. However, they tend to use simple sensing strategies since it
has been shown that they perform poorly with a high dimensional state spaces,
such as the ones yielded from image-based sensing. This paper presents a
comparative analysis of two Deep-RL techniques - Deep Deterministic Policy
Gradients (DDPG) and Soft Actor-Critic (SAC) - when performing tasks of mapless
navigation for mobile robots. We aim to contribute by showing how the neural
network architecture influences the learning itself, presenting quantitative
results based on the time and distance of navigation of aerial mobile robots
for each approach. Overall, our analysis of six distinct architectures
highlights that the stochastic approach (SAC) better suits with deeper
architectures, while the opposite happens with the deterministic approach
(DDPG).
- Abstract(参考訳): 深層強化学習(Deep-RL)における決定論的・確率的手法は、様々なロボットの動作制御と意思決定タスクを改善するための有望なソリューションとなっている。
これまでの研究では、これらのDeep-RLアルゴリズムが、一般の移動ロボットのマップレスナビゲーションに応用できることが示されている。
しかし、画像に基づくセンシングから得られるような高次元の状態空間では性能が悪いことが示されているため、単純なセンシング戦略を用いる傾向がある。
本稿では,移動ロボットの地図レスナビゲーション作業において,Deep Deterministic Policy Gradients(DDPG)とSoft Actor-Critic(SAC)という2つのDeep-RL技術の比較分析を行った。
本研究の目的は,ニューラルネットワークアーキテクチャが学習そのものにどのように影響するかを示し,各アプローチにおける空中移動ロボットのナビゲーション時間と距離に基づいて定量的な結果を示すことである。
全体として、我々の6つの異なるアーキテクチャの分析は、確率的アプローチ(SAC)がより深いアーキテクチャに適しているのに対して、逆は決定論的アプローチ(DDPG)であることを示している。
関連論文リスト
- Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning [1.3725832537448668]
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。
その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T05:18:59Z) - Enhanced Low-Dimensional Sensing Mapless Navigation of Terrestrial
Mobile Robots Using Double Deep Reinforcement Learning Techniques [1.191504645891765]
地上移動ロボットのためのマップレスナビゲーションの強化を目的とした2つのアプローチを提案する。
研究手法は主に、DQN(Deep Q-Network)アルゴリズムに基づくDeep-RL戦略と、DQN(Double Deep Q-Network)アルゴリズムに基づく代替アプローチの比較分析を含む。
提案手法は3つの異なる実環境において評価され、Double Deep構造は単純なQ構造に比べて移動ロボットのナビゲーション能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-10-20T20:47:07Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Robot path planning using deep reinforcement learning [0.0]
強化学習法は、地図のないナビゲーションタスクに代わる手段を提供する。
障害物回避と目標指向ナビゲーションタスクの両方に深部強化学習エージェントを実装した。
報酬関数の変更によるエージェントの挙動と性能の変化を解析する。
論文 参考訳(メタデータ) (2023-02-17T20:08:59Z) - Double Deep Reinforcement Learning Techniques for Low Dimensional
Sensing Mapless Navigation of Terrestrial Mobile Robots [0.9175368456179858]
本研究では,地上移動ロボットの地図レスナビゲーション問題を改善するために,Deep Reinforcement Learning (Deep-RL) の2つのアプローチを提案する。
本稿では,Deep Q-Network (DQN)アルゴリズムに基づくDeep-RL手法とDouble Deep Q-Network (DDQN)アルゴリズムに基づく第2のDouble Q-Network (DDQN)アルゴリズムとの比較に焦点をあてる。
学習の低次元センシング構造を用いることで,複雑なセンシング情報を用いることなく,ナビゲーション関連タスクや障害物回避をエージェントに教えることが可能であることを示す。
論文 参考訳(メタデータ) (2023-01-26T15:23:59Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Reinforcement co-Learning of Deep and Spiking Neural Networks for
Energy-Efficient Mapless Navigation with Neuromorphic Hardware [0.0]
スパイキングニューラルネットワークのエネルギー効率と深部強化学習(DRL)の最適性を組み合わせたニューロモルフィックアプローチを提案する。
筆者らのフレームワークは,スパイクアクターネットワーク(SAN)と深い批判ネットワークから構成されており,この2つのネットワークは勾配降下を用いて共同で訓練されている。
アプローチを評価するため、トレーニング済みのSANをIntelのLoihiニューロモルフィックプロセッサにデプロイした。
論文 参考訳(メタデータ) (2020-03-02T19:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。