論文の概要: Learning to replenish: A hybrid deep reinforcement learning for dynamic inventory management in the pharmaceutical supply chains
- arxiv url: http://arxiv.org/abs/2606.06201v1
- Date: Thu, 04 Jun 2026 14:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.845149
- Title: Learning to replenish: A hybrid deep reinforcement learning for dynamic inventory management in the pharmaceutical supply chains
- Title(参考訳): 製薬サプライチェーンにおける動的在庫管理のためのハイブリッド強化学習
- Authors: Amandeep Kaur, Gyan Prakash,
- Abstract要約: 本研究は,製薬製品に対する最適在庫補充政策の策定を目的とする。
マルコフ決定過程として問題を定式化し,より深い強化学習手法を提案する。
提案アルゴリズムは動的シナリオ下で在庫補充戦略を適応的に更新する。
- 参考スコア(独自算出の注目度): 3.4856436609897616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pharmaceutical supply chains (PSCs) struggle with inventory management (IM) due to unpredictable demand patterns and variable lead times associated with restocking. This complexity is further compounded by the finite shelf lives of pharmaceutical products, which necessitate a delicate balance between adequate stock and minimal waste. These intertwined factors create a complex optimization problem that requires sophisticated inventory strategies to ensure both product availability and PSC efficiency. This study aims to develop an optimal inventory replenishment policy for pharmaceutical products that can handle the stochasticity arising from uncertain demand and variable PSC conditions. The objective is to maximize the profitability of the PSC while maintaining a high patient service level. We formulate the problem as a Markov decision process and propose a deep reinforcement learning (DRL) approach, specifically, a hybrid asynchronous advantage actor critic distributed proximal policy optimization (A3C DPPO)algorithm. The A3C DPPO algorithm is tailored to handle the continuous action space inherent in IM. The numerical results demonstrate that the proposed algorithm adaptively updates the inventory replenishment strategy under dynamic scenarios, resulting in lower inventory costs compared to various benchmarks. We also conduct numerical validation using real-world pharmaceutical inventory data to confirm the practical feasibility of the proposed algorithm.
- Abstract(参考訳): 医薬品サプライチェーン(PSC)は、予測不可能な需要パターンと、再生産に伴う鉛の変動による在庫管理(IM)に苦慮している。
この複雑さは、適切な在庫と最小限の廃棄物との微妙なバランスを必要とする製薬製品の有限棚生活によってさらに複雑になる。
これらの相互接続された要因は、製品可用性とPSC効率の両立を保証するための高度な在庫戦略を必要とする複雑な最適化問題を生み出す。
本研究の目的は、不確実な需要と変動PSC条件から生じる確率性に対処できる医薬製品のための最適な在庫補充政策を開発することである。
患者サービス水準を維持しつつPSCの収益性を最大化することを目的とする。
我々はマルコフ決定過程として問題を定式化し、特に、ハイブリッド非同期アドバンストアクター評論家による近似ポリシー最適化(A3C DPPO)のアルゴリズムを提案する。
A3C DPPOアルゴリズムは、IMに固有の連続的なアクション空間を扱うように調整されている。
数値計算の結果,提案アルゴリズムは動的シナリオ下で在庫補充戦略を適応的に更新し,その結果,様々なベンチマークと比較して在庫コストが低下することを示した。
また,提案アルゴリズムの有効性を確認するために,実世界の医薬品在庫データを用いた数値検証を行った。
関連論文リスト
- Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - Adaptive Inventory Strategies using Deep Reinforcement Learning for Dynamic Agri-Food Supply Chains [1.7930468380414317]
本研究は,アグリフード製品の在庫管理とリードタイムの不確実性に着目した。
価値とポリシーに基づくDRLアプローチの両方の利点を、不確実性下での在庫最適化に組み合わせた、新しいDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-22T15:02:54Z) - Classical and Deep Reinforcement Learning Inventory Control Policies for Pharmaceutical Supply Chains with Perishability and Non-Stationarity [1.0124625066746595]
本稿では, 医薬品サプライチェーンの在庫管理方針について検討し, パーシビリティ, 不確実性, 非定常需要といった課題に対処する。
当社は3つのポリシー--order-up-to(OUT)、予測在庫レベル(PIL)、深層強化学習(DRL)をベンチマークする。
論文 参考訳(メタデータ) (2025-01-18T22:40:33Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - Multiple Independent DE Optimizations to Tackle Uncertainty and
Variability in Demand in Inventory Management [0.0]
本研究の目的は、不確実な需要パターンの文脈において、在庫コストを最小限に抑えるための最も効果的な戦略を明らかにすることである。
最適な解を見つけるために、この研究はメタヒューリスティックなアプローチに焦点を当て、複数のアルゴリズムを比較する。
論文 参考訳(メタデータ) (2023-09-22T13:15:02Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。