論文の概要: Structure-Informed Deep Reinforcement Learning for Inventory Management
- arxiv url: http://arxiv.org/abs/2507.22040v1
- Date: Tue, 29 Jul 2025 17:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.778063
- Title: Structure-Informed Deep Reinforcement Learning for Inventory Management
- Title(参考訳): インベントリマネジメントのための構造インフォームド深部強化学習
- Authors: Alvaro Maggiar, Sohrab Andaz, Akhil Bagaria, Carson Eisenach, Dean Foster, Omer Gottesman, Dominique Perrault-Joncas,
- Abstract要約: 本稿では,古典的在庫管理問題に対するDeep Reinforcement Learningの適用について検討する。
我々はDirectBackpropに基づくDRLアルゴリズムをいくつかの基本的な在庫管理シナリオに適用する。
本稿では,我々の汎用DRL実装が,確立したベンチマークや分布に対して競争的に,あるいは性能的に優れていることを示す。
- 参考スコア(独自算出の注目度): 8.697068617006964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the application of Deep Reinforcement Learning (DRL) to classical inventory management problems, with a focus on practical implementation considerations. We apply a DRL algorithm based on DirectBackprop to several fundamental inventory management scenarios including multi-period systems with lost sales (with and without lead times), perishable inventory management, dual sourcing, and joint inventory procurement and removal. The DRL approach learns policies across products using only historical information that would be available in practice, avoiding unrealistic assumptions about demand distributions or access to distribution parameters. We demonstrate that our generic DRL implementation performs competitively against or outperforms established benchmarks and heuristics across these diverse settings, while requiring minimal parameter tuning. Through examination of the learned policies, we show that the DRL approach naturally captures many known structural properties of optimal policies derived from traditional operations research methods. To further improve policy performance and interpretability, we propose a Structure-Informed Policy Network technique that explicitly incorporates analytically-derived characteristics of optimal policies into the learning process. This approach can help interpretability and add robustness to the policy in out-of-sample performance, as we demonstrate in an example with realistic demand data. Finally, we provide an illustrative application of DRL in a non-stationary setting. Our work bridges the gap between data-driven learning and analytical insights in inventory management while maintaining practical applicability.
- Abstract(参考訳): 本稿では,古典的在庫管理問題に対するDeep Reinforcement Learning (DRL) の適用について検討し,実践的実装に焦点をあてる。
DirectBackprop に基づく DRL アルゴリズムを,販売期間の短縮,在庫管理,二重ソーシング,共同在庫調達・削除など,いくつかの基本的な在庫管理シナリオに適用する。
DRLアプローチは、需要分布や分布パラメータへのアクセスに関する非現実的な仮定を回避し、実際に利用可能な歴史的な情報のみを使用して、製品全体にわたるポリシーを学習する。
我々は,我々の汎用DRL実装が,パラメータチューニングを最小限に抑えつつ,確立したベンチマークやヒューリスティックに対して競争力を発揮することを示した。
学習方針の検証を通じて、DRLアプローチは従来の運用研究手法から導かれた最適方針の多くの既知の構造的特性を自然に捉えていることを示す。
政策性能と解釈可能性をさらに向上するために,最適な政策の分析的特徴を学習プロセスに明示的に組み込む構造インフォームド・ポリシー・ネットワーク手法を提案する。
このアプローチは、現実的な需要データを使った例で示すように、解釈可能性を高め、サンプル外のパフォーマンスにおけるポリシーに堅牢性を加えるのに役立つ。
最後に,非定常環境におけるDRLの図解的応用について述べる。
我々の研究は、実践的な適用性を維持しながら、データ駆動学習と在庫管理における分析的洞察のギャップを埋めるものです。
関連論文リスト
- VC Theory for Inventory Policies [7.71791422193777]
我々は、いくつかのよく知られた在庫政策のクラスを学ぶための一般化保証を証明している。
コンテキストのない古典的な設定に焦点をあてるが、要求シーケンスの任意の分布が可能である。
本研究は,ブラックボックス学習機械にベースストックと在庫配置の概念を組み込むことが有用であることを示す。
論文 参考訳(メタデータ) (2024-04-17T16:05:03Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。
提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。
我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Deep Controlled Learning for Inventory Control [0.0]
在庫管理への深層強化学習(DRL)の適用は、新たな分野である。
従来のDRLアルゴリズムは、もともとゲームプレイングやロボティクスといった多様な分野向けに開発されたもので、在庫管理によって引き起こされる特定の課題には適していない。
本稿では,高数値問題を対象とした新しいDRLアルゴリズムであるDeep Learning (DCL)を提案する。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。