論文の概要: Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout
- arxiv url: http://arxiv.org/abs/2411.06128v1
- Date: Sat, 09 Nov 2024 09:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:08:20.123196
- Title: Research on reinforcement learning based warehouse robot navigation algorithm in complex warehouse layout
- Title(参考訳): 強化学習に基づく複雑な倉庫配置における倉庫ロボットナビゲーションアルゴリズムに関する研究
- Authors: Keqin Li, Lipeng Liu, Jiajing Chen, Dezhi Yu, Xiaofan Zhou, Ming Li, Congyu Wang, Zhao Li,
- Abstract要約: 本稿では, PPO と Dijkstra のアルゴリズム, Proximal Policy-Dijkstra (PP-D) の新たな手法を提案する。
PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画する。
- 参考スコア(独自算出の注目度): 13.945240113332352
- License:
- Abstract: In this paper, how to efficiently find the optimal path in complex warehouse layout and make real-time decision is a key problem. This paper proposes a new method of Proximal Policy Optimization (PPO) and Dijkstra's algorithm, Proximal policy-Dijkstra (PP-D). PP-D method realizes efficient strategy learning and real-time decision making through PPO, and uses Dijkstra algorithm to plan the global optimal path, thus ensuring high navigation accuracy and significantly improving the efficiency of path planning. Specifically, PPO enables robots to quickly adapt and optimize action strategies in dynamic environments through its stable policy updating mechanism. Dijkstra's algorithm ensures global optimal path planning in static environment. Finally, through the comparison experiment and analysis of the proposed framework with the traditional algorithm, the results show that the PP-D method has significant advantages in improving the accuracy of navigation prediction and enhancing the robustness of the system. Especially in complex warehouse layout, PP-D method can find the optimal path more accurately and reduce collision and stagnation. This proves the reliability and effectiveness of the robot in the study of complex warehouse layout navigation algorithm.
- Abstract(参考訳): 本稿では, 複雑な倉庫配置の最適経路を効率的に把握し, リアルタイム意思決定を行うことが重要な課題である。
本稿では, PPO と Dijkstra のアルゴリズムである Proximal Policy-Dijkstra (PP-D) を提案する。
PP-D法はPPOによる効率的な戦略学習とリアルタイム意思決定を実現し,Dijkstraアルゴリズムを用いてグローバル最適経路を計画し,航法精度の向上と経路計画の効率化を図る。
具体的には、PPOは安定したポリシー更新機構を通じて、ロボットが動的環境におけるアクション戦略を迅速に適応し、最適化することを可能にする。
Dijkstraのアルゴリズムは、静的環境における大域的最適経路計画を保証する。
最後に,提案手法と従来のアルゴリズムとの比較実験により,PP-D法はナビゲーション予測の精度向上とシステムの堅牢性向上に有益であることを示す。
特に複雑な倉庫配置では、PP-D法は最適な経路をより正確に見つけることができ、衝突や停滞を減らすことができる。
これにより、複雑な倉庫レイアウトナビゲーションアルゴリズムの研究において、ロボットの信頼性と効果が証明される。
関連論文リスト
- LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Using Particle Swarm Optimization as Pathfinding Strategy in a Space
with Obstacles [4.899469599577755]
Particle Swarm Optimization (PSO) は集団適応最適化に基づく探索アルゴリズムである。
本稿では,幅広いアプリケーションを対象としたパスプランニングの効率化を図るため,パスフィニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T12:16:02Z) - Sparsification for Fast Optimal Multi-Robot Path Planning in Lazy
Compilation Schemes [7.766921168069532]
複数のロボット(MRPP)の経路計画は、ロボットが最初の位置から指定された目標位置までナビゲートできる非衝突経路を見つけるタスクを表します。
本稿では,既存の SAT ベースの MRPP アルゴリズムを,対象の Boolean 符号化を導出する各ロボットの候補経路の集合を分割することで拡張する。
論文 参考訳(メタデータ) (2021-03-08T00:57:42Z) - Conditional Generative Adversarial Networks for Optimal Path Planning [30.892250698479064]
条件付き生成逆数ネットワーク(CGAN)と修正RT*アルゴリズム(CGANRRT*で記述)に基づく新しい学習経路計画アルゴリズムを提案する。
CGANモデルは、地上の真理マップから学習することで訓練され、それぞれがRRTアルゴリズムの実行結果を1つの生地図上で50回行った結果から生成される。
CGAN-RRT* アルゴリズムと従来の RRT* アルゴリズムを比較することで,この CGAN モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-06T02:53:50Z) - Revisiting Bounded-Suboptimal Safe Interval Path Planning [16.24691505268453]
安全インターバル経路計画(SIPP)は動的障害物の存在下で経路を見つけるための強力なアルゴリズムである。
ロボットの経路計画などのSIPPの多くの実践的応用において、より短い計画時間で最適性をトレードオフしたい。
論文 参考訳(メタデータ) (2020-06-01T18:42:52Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。