論文の概要: Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations
- arxiv url: http://arxiv.org/abs/2408.01656v2
- Date: Sat, 05 Apr 2025 17:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:32:45.055026
- Title: Deep Reinforcement Learning for Dynamic Order Picking in Warehouse Operations
- Title(参考訳): 倉庫作業における動的順序付けのための深部強化学習
- Authors: Sasan Mahmoudinazlou, Abhay Sobhanan, Hadi Charkhgard, Ali Eshragh, George Dunn,
- Abstract要約: 本研究は,現代の倉庫管理において重要な課題である動的順序決定問題に対処する。
本稿では,自律的なピックアップ装置を備えた単ブロック倉庫に適したDeep Reinforcement Learningフレームワークを提案する。
動的にピッカー経路を最適化することにより、注文のスループット時間と未充足注文を著しく削減する。
- 参考スコア(独自算出の注目度): 0.6116681488656472
- License:
- Abstract: Order picking is a pivotal operation in warehouses that directly impacts overall efficiency and profitability. This study addresses the dynamic order picking problem, a significant concern in modern warehouse management, where real-time adaptation to fluctuating order arrivals and efficient picker routing are crucial. Traditional methods, which often depend on static optimization algorithms designed around fixed order sets for the picker routing, fall short in addressing the challenges of this dynamic environment. To overcome these challenges, we propose a Deep Reinforcement Learning (DRL) framework tailored for single-block warehouses equipped with an autonomous picking device. By dynamically optimizing picker routes, our approach significantly reduces order throughput times and unfulfilled orders, particularly under high order arrival rates. We benchmark our DRL model against established algorithms, utilizing instances generated based on standard practices in the order picking literature. Experimental results demonstrate the superiority of our DRL model over benchmark algorithms. For example, at a high order arrival rate of 0.09 (i.e., 9 orders per 100 units of time on average), our approach achieves an order fulfillment rate of approximately 98%, compared to the 82% fulfillment rate observed with benchmarking algorithms. We further investigate the integration of a hyperparameter in the reward function that allows for flexible balancing between distance traveled and order completion time. Finally, we demonstrate the robustness of our DRL model on out-of-sample test instances.
- Abstract(参考訳): 注文の取り出しは倉庫における重要な作業であり、全体の効率と収益性に直接影響を及ぼす。
本研究は, 変動する注文の到着と効率的なピッカールーティングへのリアルタイム適応が不可欠である, 現代の倉庫管理において重要な関心事である動的オーダーピッカー問題に対処する。
従来の手法は、ピッカールーティングのための固定順序セットを中心に設計された静的最適化アルゴリズムに依存しているが、この動的環境の課題に対処するには不十分である。
これらの課題を克服するために,自律的なピックアップ装置を備えた単ブロック倉庫に適した深層強化学習(DRL)フレームワークを提案する。
ピッカー経路を動的に最適化することにより、特に高次到着率下で、注文スループット時間と未充足注文を著しく削減する。
我々はDRLモデルを確立されたアルゴリズムに対してベンチマークし、文献を抽出する際の標準プラクティスに基づいて生成されたインスタンスを利用する。
ベンチマークアルゴリズムよりもDRLモデルの方が優れていることを示す実験結果を得た。
例えば、高次到着率0.09(平均時間100単位あたり9オーダー)では、ベンチマークアルゴリズムで観測された82%の充足率と比較して、約98%のオーダー充足率を達成する。
さらに、旅行距離と注文完了時間の柔軟なバランスをとることができる報酬関数におけるハイパーパラメータの統合について検討する。
最後に、サンプル外テストインスタンス上でのDRLモデルの堅牢性を示す。
関連論文リスト
- Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization [6.713974813995327]
本稿では、メモリを活用してニューラルネットワークの適応性を向上させるアプローチであるMementOを提案する。
我々は,大規模インスタンス上で全RL自動回帰解法をトレーニングし,MementOが拡張可能で,データ効率がよいことを示す。
全体として、MementOは評価された12のタスクのうち11に最先端のタスクをプッシュすることができる。
論文 参考訳(メタデータ) (2024-06-24T08:18:19Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge
Computing [11.403989519949173]
本研究は,AOI( Age-of-Information)によって測定された計算集約更新の時系列に焦点をあてる。
我々は,AoIのタスク更新とオフロードポリシを分断形式で共同で最適化する方法について検討する。
実験の結果,提案アルゴリズムは,いくつかの非フラクタルベンチマークと比較して平均AoIを57.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-16T11:13:40Z) - Neural Approximate Dynamic Programming for the Ultra-fast Order
Dispatching Problem [1.519321208145928]
我々は,集中倉庫における宅配業者への注文のマッチングと送達を含む超高速オーダーディスパッチ問題(ODP)に焦点を当てる。
我々は、より現実的な操作表現を提供し、納品効率を向上させるために、注文ポリシーや明示的なクーリエ割り当てなどの超高速ODPに重要な拡張を導入する。
我々は,ODPに適した4つの異なる現実的データセットを用いて提案手法を検証し,NeurADPの性能を筋電図およびDRLベースラインと比較した。
論文 参考訳(メタデータ) (2023-11-21T20:23:58Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free
Deep Reinforcement Learning and Change Point Detection [34.77250498401055]
本稿では,車いすによる乗り合い環境における日中パターンを認識・適応できる適応型モデルフリー深部強化手法を提案する。
本論文では, 配車における適応論理に加えて, 動的かつ需要に応じた車両通行者マッチングと経路計画の枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-01T02:14:01Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning [2.4565068569913384]
本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
論文 参考訳(メタデータ) (2020-06-16T20:40:41Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。