論文の概要: Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning
- arxiv url: http://arxiv.org/abs/2404.12594v1
- Date: Fri, 19 Apr 2024 02:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:24:58.658953
- Title: Random Network Distillation Based Deep Reinforcement Learning for AGV Path Planning
- Title(参考訳): AGV経路計画のためのランダムネットワーク蒸留に基づく深部強化学習
- Authors: Huilin Yin, Shengkai Su, Yinjia Lin, Pengju Zhen, Karin Festl, Daniel Watzenig,
- Abstract要約: 本稿では,AGVの継続的な動作と位置を考慮したAGV経路計画のシミュレーション環境について述べる。
提案手法により,AGV は環境内の連続的な動作を伴う経路計画タスクをより高速に完了できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the flourishing development of intelligent warehousing systems, the technology of Automated Guided Vehicle (AGV) has experienced rapid growth. Within intelligent warehousing environments, AGV is required to safely and rapidly plan an optimal path in complex and dynamic environments. Most research has studied deep reinforcement learning to address this challenge. However, in the environments with sparse extrinsic rewards, these algorithms often converge slowly, learn inefficiently or fail to reach the target. Random Network Distillation (RND), as an exploration enhancement, can effectively improve the performance of proximal policy optimization, especially enhancing the additional intrinsic rewards of the AGV agent which is in sparse reward environments. Moreover, most of the current research continues to use 2D grid mazes as experimental environments. These environments have insufficient complexity and limited action sets. To solve this limitation, we present simulation environments of AGV path planning with continuous actions and positions for AGVs, so that it can be close to realistic physical scenarios. Based on our experiments and comprehensive analysis of the proposed method, the results demonstrate that our proposed method enables AGV to more rapidly complete path planning tasks with continuous actions in our environments. A video of part of our experiments can be found at https://youtu.be/lwrY9YesGmw.
- Abstract(参考訳): 知的ウェアハウジングシステムの開発が盛んになり、AGV(Automated Guided Vehicle)の技術は急速に成長してきた。
知的ウェアハウス環境の中では、AGVは複雑で動的な環境において、安全かつ迅速に最適な経路を計画する必要がある。
ほとんどの研究は、この課題に対処するために深い強化学習を研究してきた。
しかしながら、疎外報酬を持つ環境では、これらのアルゴリズムはしばしばゆっくりと収束し、非効率に学習するか、目標に到達するのに失敗する。
ランダムネットワーク蒸留(RND: Random Network Distillation)は、探索の強化として、特に粗末な報酬環境にあるAGVエージェントの本質的な報酬を効果的に向上させることができる。
さらに、現在の研究のほとんどは、2Dグリッド迷路を実験環境として使用し続けている。
これらの環境は、複雑さが不足し、アクションセットが限られている。
この制限を解決するため、AGV経路計画のシミュレーション環境をAGVの連続的な動作と位置で提示し、現実的な物理シナリオに近づけるようにした。
提案手法の総合的な解析と実験結果から,AGV がより高速に経路計画タスクを実施できることを示す。
私たちの実験のビデオはhttps://youtu.be/lwrY9YesGmw.comで見ることができる。
関連論文リスト
- Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Train Ego-Path Detection on Railway Tracks Using End-to-End Deep Learning [2.855485723554975]
本稿では,「列車エゴパス検出」の課題を紹介する。
列車の直進経路、すなわち「エゴパス」を、潜在的に複雑でダイナミックな鉄道環境の中で特定することを目的としている。
私たちの研究の中心は、エゴパス検出に適したエンドツーエンドのディープラーニングフレームワークであるTEP-Netです。
論文 参考訳(メタデータ) (2024-03-19T18:46:32Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Learning-based Motion Planning in Dynamic Environments Using GNNs and
Temporal Encoding [15.58317292680615]
組込みとエッジ優先化ポリシの両方を学習するために,データアグリゲーションを用いた時間符号化と模倣学習を用いたGNNベースのアプローチを提案する。
実験により, 提案手法は, 最先端の完全な動的計画アルゴリズムよりも, オンラインプランニングを著しく高速化できることが示された。
論文 参考訳(メタデータ) (2022-10-16T01:27:16Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Overcoming Exploration: Deep Reinforcement Learning in Complex
Environments from Temporal Logic Specifications [2.8904578737516764]
本稿では,大規模複雑な環境に展開する未知の連続時間ダイナミクスを有するタスク誘導型ロボットのためのDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。
論文 参考訳(メタデータ) (2022-01-28T16:39:08Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。