論文の概要: Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.09507v1
- Date: Tue, 16 Jun 2020 20:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 19:00:17.559400
- Title: Solving the Order Batching and Sequencing Problem using Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた順序バッチとシーケンス問題の解法
- Authors: Bram Cals, Yingqian Zhang, Remco Dijkman, Claudy van Dorst
- Abstract要約: 本稿では,注文数を最小限に抑えるため,倉庫内で注文のバッチ化と選択のタイミングを決定するために,Deep Reinforcement Learning (DRL) アプローチを提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、または、他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかを判断することを容易にする。
- 参考スコア(独自算出の注目度): 2.4565068569913384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In e-commerce markets, on time delivery is of great importance to customer
satisfaction. In this paper, we present a Deep Reinforcement Learning (DRL)
approach for deciding how and when orders should be batched and picked in a
warehouse to minimize the number of tardy orders. In particular, the technique
facilitates making decisions on whether an order should be picked individually
(pick-by-order) or picked in a batch with other orders (pick-by-batch), and if
so with which other orders. We approach the problem by formulating it as a
semi-Markov decision process and develop a vector-based state representation
that includes the characteristics of the warehouse system. This allows us to
create a deep reinforcement learning solution that learns a strategy by
interacting with the environment and solve the problem with a proximal policy
optimization algorithm. We evaluate the performance of the proposed DRL
approach by comparing it with several batching and sequencing heuristics in
different problem settings. The results show that the DRL approach is able to
develop a strategy that produces consistent, good solutions and performs better
than the proposed heuristics.
- Abstract(参考訳): 電子商取引市場では、タイムデリバリーは顧客満足度にとって非常に重要である。
本稿では,大規模注文数を最小限に抑えるため,倉庫内における注文のバッチ処理のタイミングとタイミングを決定するためのDep Reinforcement Learning (DRL) 手法を提案する。
特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、あるいは他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかの決定を容易にする。
本稿では,これを半マルコフ決定プロセスとして定式化し,倉庫システムの特徴を含むベクトルベースの状態表現を開発する。
これにより、環境と対話して戦略を学習する深層強化学習ソリューションを作成し、近似ポリシー最適化アルゴリズムを用いて問題を解決することができる。
提案するDRL手法の性能を,複数のバッチ処理と異なる問題設定におけるシーケンシングヒューリスティックスと比較することにより評価する。
以上の結果から,drlアプローチは,提案するヒューリスティックスよりも一貫性と優れたソリューションを生み出す戦略を開発できることが示されている。
関連論文リスト
- Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。
以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。
本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-24T12:06:09Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - A Machine Learning Approach to Two-Stage Adaptive Robust Optimization [6.943816076962257]
本稿では,2段階線形適応ロバスト最適化問題の解法として,機械学習に基づくアプローチを提案する。
私たちは、最適な今と現在の決定、最適な今と現在の決定に関連する最悪のシナリオ、そして最適な待ちと見る決定をエンコードします。
私たちは、現在と現在の決定のための高品質な戦略、最適な今と現在の決定に関連する最悪のシナリオ、待機と見る決定を予測できる機械学習モデルをトレーニングします。
論文 参考訳(メタデータ) (2023-07-23T19:23:06Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - A Case Study on Optimization of Warehouses [2.2101681534594237]
倉庫では、労働者が倉庫の業績の大部分を担っている最も労働集約的でコストがかかる作業である。
本研究は,メザニン倉庫における倉庫配置の最適化と受注問題について,その相互的影響について検討する。
論文 参考訳(メタデータ) (2021-11-23T07:22:57Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。