論文の概要: A Learning Based Framework for Handling Uncertain Lead Times in
Multi-Product Inventory Management
- arxiv url: http://arxiv.org/abs/2203.00885v1
- Date: Wed, 2 Mar 2022 05:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:20:26.403983
- Title: A Learning Based Framework for Handling Uncertain Lead Times in
Multi-Product Inventory Management
- Title(参考訳): マルチプロダクトインベントリマネジメントにおける不確実なリードタイム処理のための学習ベースフレームワーク
- Authors: Hardik Meisheri, Somjit Nath, Mayank Baranwal, Harshad Khadilkar
- Abstract要約: サプライチェーンと在庫管理に関する既存の文献の多くは、ゼロまたは一定リードタイムの需要プロセスを考慮する。
最近導入された遅延解決深度Q-ラーニング(DRDQN)アルゴリズムに動機づけられた本研究では,リードタイムにおける不確実性を扱うための強化学習に基づくパラダイムを開発する。
- 参考スコア(独自算出の注目度): 8.889304968879163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most existing literature on supply chain and inventory management consider
stochastic demand processes with zero or constant lead times. While it is true
that in certain niche scenarios, uncertainty in lead times can be ignored, most
real-world scenarios exhibit stochasticity in lead times. These random
fluctuations can be caused due to uncertainty in arrival of raw materials at
the manufacturer's end, delay in transportation, an unforeseen surge in
demands, and switching to a different vendor, to name a few. Stochasticity in
lead times is known to severely degrade the performance in an inventory
management system, and it is only fair to abridge this gap in supply chain
system through a principled approach. Motivated by the recently introduced
delay-resolved deep Q-learning (DRDQN) algorithm, this paper develops a
reinforcement learning based paradigm for handling uncertainty in lead times
(\emph{action delay}). Through empirical evaluations, it is further shown that
the inventory management with uncertain lead times is not only equivalent to
that of delay in information sharing across multiple echelons
(\emph{observation delay}), a model trained to handle one kind of delay is
capable to handle delays of another kind without requiring to be retrained.
Finally, we apply the delay-resolved framework to scenarios comprising of
multiple products subjected to stochasticity in lead times, and elucidate how
the delay-resolved framework negates the effect of any delay to achieve
near-optimal performance.
- Abstract(参考訳): サプライチェーンと在庫管理に関する既存の文献のほとんどは、ゼロまたは一定リードタイムの確率的需要プロセスを考慮する。
特定のニッチなシナリオでは、リードタイムの不確実性は無視できるが、現実のシナリオのほとんどはリードタイムに確率性を示す。
これらのランダムな変動は、メーカーの終わりに原料が到着することの不確実性、輸送の遅れ、予期せぬ需要の急増、そして別のベンダーへの切り替えによって引き起こされる可能性がある。
在庫管理システムのパフォーマンスを著しく低下させることは,リードタイムの確率性は知られており,このサプライチェーンシステムのギャップを原則的アプローチで埋めることは公平である。
本稿では,最近導入された遅延解決深度Q-ラーニング(DRDQN)アルゴリズムにより,リードタイムにおける不確実性を扱うための強化学習に基づくパラダイムを開発する(\emph{action delay})。
実証的評価により, リードタイムの不確かさを伴う在庫管理は, 複数のエケロン間での情報共有の遅延 (\emph{observation delay}) と同等であるだけでなく, ある種類の遅延を扱うように訓練されたモデルは, 再訓練を必要とせずに, 他の種類の遅延を処理できることを示した。
最後に,遅延解決フレームワークをリードタイムの確率性を考慮した複数の製品からなるシナリオに適用し,遅延解決フレームワークが遅延の影響を無効にしてほぼ最適性能を達成する方法を明らかにする。
関連論文リスト
- Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Distributed Stochastic Gradient Descent with Staleness: A Stochastic Delay Differential Equation Based Framework [56.82432591933544]
分散勾配降下(SGD)は、計算リソースのスケーリング、トレーニング時間の短縮、マシンラーニングにおけるユーザのプライバシ保護の支援などにより、近年注目されている。
本稿では,遅延微分方程式(SDDE)と勾配到着の近似に基づく分散SGDの実行時間と安定化について述べる。
活性化作業員の増加は, 安定度による分散SGDを必ずしも加速させるものではないことが興味深い。
論文 参考訳(メタデータ) (2024-06-17T02:56:55Z) - DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays [26.032139258562708]
本稿では,解釈性を効果的に向上し,ランダム遅延問題に対処するためのフレームワークである$textbfDEER (Delay-Resilient-Enhanced RL)$を提案する。
様々な遅延シナリオでは、トレーニングされたエンコーダは、追加の修正を必要とせずに、標準のRLアルゴリズムとシームレスに統合することができる。
その結果, DEER は定常およびランダムな遅延設定において最先端の RL アルゴリズムよりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-05T09:45:26Z) - Tree Search-Based Policy Optimization under Stochastic Execution Delay [46.849634120584646]
遅延実行 MDP は、状態拡張に頼ることなく、ランダムな遅延に対処する新しい形式である。
観測された遅延値から、マルコフポリシーのクラスでポリシー探索を行うのに十分であることを示す。
我々はマルコフポリシーのクラスを最適化するモデルベースのアルゴリズムであるDEZを考案した。
論文 参考訳(メタデータ) (2024-04-08T12:19:04Z) - Stochastic Approximation with Delayed Updates: Finite-Time Rates under Markovian Sampling [73.5602474095954]
マルコフサンプリングの遅延更新による近似スキームの非漸近的性能について検討した。
我々の理論的な発見は、幅広いアルゴリズムの遅延の有限時間効果に光を当てた。
論文 参考訳(メタデータ) (2024-02-19T03:08:02Z) - Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via
Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。
主な課題は、URLLCパケット生成のプロセスにおける不確実性である。
本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文 参考訳(メタデータ) (2023-02-15T14:09:55Z) - Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning [28.35473469490186]
マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
論文 参考訳(メタデータ) (2022-08-30T08:44:15Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Stochastic Multi-Armed Bandits with Unrestricted Delay Distributions [54.25616645675032]
アルゴリズムが受信したフィードバックにランダムな遅延を伴うマルチアーマッド・バンドイット(MAB)問題について検討する。
報酬非依存の遅延設定は、報酬非依存の遅延設定と、報酬非依存の遅延設定に依存する可能性がある。
私たちの主な貢献は、それぞれの設定でほぼ最適に後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2021-06-04T12:26:06Z) - Stochastic bandits with arm-dependent delays [102.63128271054741]
我々は、単純なUCBベースのアルゴリズムであるPatentBanditsを提案する。
問題に依存しない境界も問題に依存しない境界も、性能の低い境界も提供します。
論文 参考訳(メタデータ) (2020-06-18T12:13:58Z) - Non-Stationary Delayed Bandits with Intermediate Observations [10.538264213183076]
オンラインレコメンデータシステムは、特に長期的なメトリクスを最適化する場合、フィードバックを受け取るのに長い遅延に直面します。
中間観測による非定常遅延帯域の問題を紹介する。
UCRLに基づく効率的なアルゴリズムを開発し,その性能に対するサブ線形後悔保証を証明した。
論文 参考訳(メタデータ) (2020-06-03T09:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。