論文の概要: Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations
- arxiv url: http://arxiv.org/abs/2408.01656v1
- Date: Sat, 3 Aug 2024 03:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:10:37.588585
- Title: Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations
- Title(参考訳): 倉庫作業における動的順序付けのための深部強化学習
- Authors: Sasan Mahmoudinazlou, Abhay Sobhanan, Hadi Charkhgard, Ali Eshragh, George Dunn,
- Abstract要約: 本研究は動的順序決定問題に対処する。
固定順序集合を仮定する伝統的な手法は、この動的環境において不足する。
顧客の要求に固有の不確実性を扱うためのソリューション手法として,Deep Reinforcement Learning (DRL) を利用する。
- 参考スコア(独自算出の注目度): 0.6116681488656472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Order picking is a crucial operation in warehouses that significantly impacts overall efficiency and profitability. This study addresses the dynamic order picking problem, a significant concern in modern warehouse management where real-time adaptation to fluctuating order arrivals and efficient picker routing are crucial. Traditional methods, often assuming fixed order sets, fall short in this dynamic environment. We utilize Deep Reinforcement Learning (DRL) as a solution methodology to handle the inherent uncertainties in customer demands. We focus on a single-block warehouse with an autonomous picking device, eliminating human behavioral factors. Our DRL framework enables the dynamic optimization of picker routes, significantly reducing order throughput times, especially under high order arrival rates. Experiments demonstrate a substantial decrease in order throughput time and unfulfilled orders compared to benchmark algorithms. We further investigate integrating a hyperparameter in the reward function that allows for flexible balancing between distance traveled and order completion time. Finally, we demonstrate the robustness of our DRL model for out-of-sample test instances.
- Abstract(参考訳): 注文の取り出しは倉庫における重要な作業であり、全体の効率と収益性に大きな影響を及ぼす。
本研究は、変動する注文の到着と効率的なピッカールーティングへのリアルタイム適応が不可欠である、現代の倉庫管理において重要な関心事である動的オーダーピッカー問題に対処する。
固定順序集合を仮定する伝統的な手法は、この動的環境において不足する。
顧客の要求に固有の不確実性を扱うためのソリューション手法として,Deep Reinforcement Learning (DRL) を利用する。
我々は、自律的なピックアップ装置を備えた単一ブロック倉庫に焦点を合わせ、人間の行動要因を排除した。
我々のDRLフレームワークは、ピッカー経路の動的最適化を可能にし、特に高次到着率において、注文スループットの時間を大幅に短縮する。
実験では、ベンチマークアルゴリズムと比較して、注文スループット時間と未充足順序が大幅に減少することを示した。
さらに,超パラメータを報酬関数に統合することにより,移動距離と注文完了時間との柔軟なバランスをとることができる。
最後に、サンプル外テストインスタンスに対するDRLモデルの堅牢性を示す。
関連論文リスト
- Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge
Computing [11.403989519949173]
本研究は,AOI( Age-of-Information)によって測定された計算集約更新の時系列に焦点をあてる。
我々は,AoIのタスク更新とオフロードポリシを分断形式で共同で最適化する方法について検討する。
実験の結果,提案アルゴリズムは,いくつかの非フラクタルベンチマークと比較して平均AoIを57.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-16T11:13:40Z) - Neural Approximate Dynamic Programming for the Ultra-fast Order
Dispatching Problem [1.519321208145928]
我々は,集中倉庫における宅配業者への注文のマッチングと送達を含む超高速オーダーディスパッチ問題(ODP)に焦点を当てる。
我々は、より現実的な操作表現を提供し、納品効率を向上させるために、注文ポリシーや明示的なクーリエ割り当てなどの超高速ODPに重要な拡張を導入する。
我々は,ODPに適した4つの異なる現実的データセットを用いて提案手法を検証し,NeurADPの性能を筋電図およびDRLベースラインと比較した。
論文 参考訳(メタデータ) (2023-11-21T20:23:58Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。