論文の概要: Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide
- arxiv url: http://arxiv.org/abs/2411.00515v1
- Date: Fri, 01 Nov 2024 11:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:47:24.424088
- Title: Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide
- Title(参考訳): インベントリマネジメントにおけるゼロショットの一般化
- Authors: Tarkan Temizöz, Christina Imdahl, Remco Dijkman, Douniel Lamghari-Idrissi, Willem van Jaarsveld,
- Abstract要約: 現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Deploying deep reinforcement learning (DRL) in real-world inventory management presents challenges, including dynamic environments and uncertain problem parameters, e.g. demand and lead time distributions. These challenges highlight a research gap, suggesting a need for a unifying framework to model and solve sequential decision-making under parameter uncertainty. We address this by exploring an underexplored area of DRL for inventory management: training generally capable agents (GCAs) under zero-shot generalization (ZSG). Here, GCAs are advanced DRL policies designed to handle a broad range of sampled problem instances with diverse inventory challenges. ZSG refers to the ability to successfully apply learned policies to unseen instances with unknown parameters without retraining. We propose a unifying Super-Markov Decision Process formulation and the Train, then Estimate and Decide (TED) framework to train and deploy a GCA tailored to inventory management applications. The TED framework consists of three phases: training a GCA on varied problem instances, continuously estimating problem parameters during deployment, and making decisions based on these estimates. Applied to periodic review inventory problems with lost sales, cyclic demand patterns, and stochastic lead times, our trained agent, the Generally Capable Lost Sales Network (GC-LSN) consistently outperforms well-known traditional policies when problem parameters are known. Moreover, under conditions where demand and/or lead time distributions are initially unknown and must be estimated, we benchmark against online learning methods that provide worst-case performance guarantees. Our GC-LSN policy, paired with the Kaplan-Meier estimator, is demonstrated to complement these methods by providing superior empirical performance.
- Abstract(参考訳): 現実世界の在庫管理における深層強化学習(DRL)の展開は、動的環境や不確実な問題パラメータ、例えば需要、リードタイムの分布などの課題を提示している。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下で一般有能エージェント(GCAs)を訓練することで、この問題に対処する。
ここでは、GCAは多様な在庫問題を伴う広範囲のサンプル問題インスタンスを扱うために設計された高度なDRLポリシーである。
ZSGは、学習したポリシーを未知のパラメータを持つインスタンスに、再トレーニングせずにうまく適用できる能力である。
我々は,在庫管理アプリケーションに適したGCAをトレーニングし,展開するための,スーパーマルコフ決定プロセスとTrain,Estimate and Decide(TED)フレームワークを提案する。
TEDフレームワークは3つのフェーズで構成されている。GCAをさまざまな問題インスタンスでトレーニングし、デプロイ中の問題パラメータを継続的に推定し、これらの見積に基づいて決定する。
損失販売、循環的需要パターン、確率的リードタイムを含む定期的な在庫問題に対して、トレーニングされたエージェントであるGC-LSN(Generally Capable Lost Sales Network)は、問題パラメータが知られている場合、よく知られた従来のポリシーを一貫して上回ります。
さらに,需要分布やリードタイム分布が不明であり,推定しなくてはならない状況下では,最悪の性能保証を提供するオンライン学習手法に対してベンチマークを行う。
本稿では,Kaplan-Meier 推定器と組み合わせた GC-LSN ポリシーを用いて,実験性能を向上し,これらの手法を補完することを示した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Using General Value Functions to Learn Domain-Backed Inventory
Management Policies [2.0257616108612373]
既存の文献では、一般的な価値関数(GVF)は主に補助的なタスク学習に使われてきた。
我々は、この能力を用いて、ストックアウト確率や無駄量などのドメインクリティカルな特性に基づいてGVFを訓練する。
本稿では、GVF予測を用いて、RLエージェントが提案する決定について、さらにドメイン支援された洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-11-03T08:35:54Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Product Segmentation Newsvendor Problems: A Robust Learning Approach [6.346881818701668]
商品セグメンテーションニューズベンダー問題は、ニューズベンダー問題の新たな変種である。
本稿では、ロバストな政策の魅力を高めるために、ロバストな学習という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-07-08T10:13:10Z) - Math Programming based Reinforcement Learning for Multi-Echelon
Inventory Management [1.9161790404101895]
強化学習は、ロボット工学、ゲーム、その他多くの分野において、かなりのブレークスルーをもたらしている。
しかし、複雑な実世界の意思決定問題におけるRLの応用は依然として限られている。
これらの特徴は、ステップアクションの問題を解くために列挙法に依存する既存のRL法において、問題を解くのをかなり難しくする。
本研究では,不確実性分布の適切に選択された離散化が,不確実性からのサンプルがごく少ない場合でも,最適なアクターポリシーに近づきうることを示す。
PARLはベースストックを44.7%、RL法を12.1%上回っている。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Towards Standardizing Reinforcement Learning Approaches for Stochastic
Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。
既存の研究は、コードが利用できない複雑なシミュレーションに依存している。
から選ぶべきRLの設計の広大な配列があります。
モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文 参考訳(メタデータ) (2021-04-16T16:07:10Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。