論文の概要: Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity
- arxiv url: http://arxiv.org/abs/2501.10895v1
- Date: Sat, 18 Jan 2025 22:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:55.081493
- Title: Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity
- Title(参考訳): パーシビリティと非定常性を有する薬品供給チェーンのための古典的・深層強化学習インベントリ制御法
- Authors: Francesco Stranieri, Chaaben Kouki, Willem van Jaarsveld, Fabio Stella,
- Abstract要約: 本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
- 参考スコア(独自算出の注目度): 1.0124625066746595
- License:
- Abstract: We study inventory control policies for pharmaceutical supply chains, addressing challenges such as perishability, yield uncertainty, and non-stationary demand, combined with batching constraints, lead times, and lost sales. Collaborating with Bristol-Myers Squibb (BMS), we develop a realistic case study incorporating these factors and benchmark three policies--order-up-to (OUT), projected inventory level (PIL), and deep reinforcement learning (DRL) using the proximal policy optimization (PPO) algorithm--against a BMS baseline based on human expertise. We derive and validate bounds-based procedures for optimizing OUT and PIL policy parameters and propose a methodology for estimating projected inventory levels, which are also integrated into the DRL policy with demand forecasts to improve decision-making under non-stationarity. Compared to a human-driven policy, which avoids lost sales through higher holding costs, all three implemented policies achieve lower average costs but exhibit greater cost variability. While PIL demonstrates robust and consistent performance, OUT struggles under high lost sales costs, and PPO excels in complex and variable scenarios but requires significant computational effort. The findings suggest that while DRL shows potential, it does not outperform classical policies in all numerical experiments, highlighting 1) the need to integrate diverse policies to manage pharmaceutical challenges effectively, based on the current state-of-the-art, and 2) that practical problems in this domain seem to lack a single policy class that yields universally acceptable performance.
- Abstract(参考訳): 本研究では, 医薬品サプライチェーンの在庫管理方針について検討し, 滅菌性, 不確実性, 非定常需要といった課題に対処し, バッチ処理の制約, リードタイム, 損失販売と組み合わせて検討した。
ブリストル・マイヤーズ・スクイブ(BMS)と共同で、これらの要因を取り入れた現実的なケーススタディを開発し、人的専門知識に基づくBMSベースラインの近似ポリシ最適化(PPO)アルゴリズムを用いて、オーダーアップ・トゥ(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)の3つのポリシーをベンチマークする。
非定常性の下での意思決定を改善するため、需要予測とともにDRLポリシーに統合された、outおよびPILポリシーパラメータを最適化するための境界ベースの手順を導出し、検証する。
高い保有コストによる損失販売を避ける人間主導の政策と比較すると、3つの政策はいずれも平均コストを低くするが、コストの変動は大きい。
PILは堅牢で一貫した性能を示すが、OUTは高い販売コストで苦戦し、PPOは複雑で変動的なシナリオで優れているが、かなりの計算努力を要する。
この結果は、DRLはポテンシャルを示すが、すべての数値実験において古典的なポリシーを上回り、強調するものではないことを示唆している。
1)現在の最先端に基いて、医薬品の課題を効果的に管理するための多様な政策を統合することの必要性
2) この領域の実践的な問題は、広く受け入れられるパフォーマンスをもたらす単一のポリシークラスが欠落しているように見える。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Distributional constrained reinforcement learning for supply chain
optimization [0.0]
本稿では、強化学習における信頼性の高い制約満足度のための新しいアプローチである分散制約政策最適化(DCPO)を紹介する。
我々は、DCPOがRLポリシーの収束率を改善し、トレーニングの終了までに信頼性の高い制約満足度を確保することを示す。
論文 参考訳(メタデータ) (2023-02-03T13:43:02Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Projection-Based Constrained Policy Optimization [34.555500347840805]
我々は,PCPO (Projection-based Constrained Policy Optimization) という新しいアルゴリズムを提案する。
PCPOは、最先端の手法に比べて3.5倍以上の制約違反と約15%の報酬を達成している。
論文 参考訳(メタデータ) (2020-10-07T04:22:45Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。