論文の概要: Learning an Inventory Control Policy with General Inventory Arrival
Dynamics
- arxiv url: http://arxiv.org/abs/2310.17168v2
- Date: Mon, 22 Jan 2024 00:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:30:02.259172
- Title: Learning an Inventory Control Policy with General Inventory Arrival
Dynamics
- Title(参考訳): 一般在庫到着ダイナミクスを用いた在庫管理政策の学習
- Authors: Sohrab Andaz, Carson Eisenach, Dhruv Madeka, Kari Torkkola, Randy Jia,
Dean Foster, Sham Kakade
- Abstract要約: 本稿では,一般的な到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題に対処する。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
- 参考スコア(独自算出の注目度): 2.3715198714015893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we address the problem of learning and backtesting inventory
control policies in the presence of general arrival dynamics -- which we term
as a quantity-over-time arrivals model (QOT). We also allow for order
quantities to be modified as a post-processing step to meet vendor constraints
such as order minimum and batch size constraints -- a common practice in real
supply chains. To the best of our knowledge this is the first work to handle
either arbitrary arrival dynamics or an arbitrary downstream post-processing of
order quantities. Building upon recent work (Madeka et al., 2022) we similarly
formulate the periodic review inventory control problem as an exogenous
decision process, where most of the state is outside the control of the agent.
Madeka et al., 2022 show how to construct a simulator that replays historic
data to solve this class of problem. In our case, we incorporate a deep
generative model for the arrivals process as part of the history replay. By
formulating the problem as an exogenous decision process, we can apply results
from Madeka et al., 2022 to obtain a reduction to supervised learning. Via
simulation studies we show that this approach yields statistically significant
improvements in profitability over production baselines. Using data from a
real-world A/B test, we show that Gen-QOT generalizes well to off-policy data
and that the resulting buying policy outperforms traditional inventory
management systems in real world settings.
- Abstract(参考訳): 本稿では,一般到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題点を取り上げ,これを量オーバータイム到着モデル(QOT)と呼ぶ。
また、注文量を後処理のステップとして修正して、注文最小値やバッチサイズ制約といったベンダの制約を満たすことも、実際のサプライチェーンで一般的なプラクティスです。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
最近の研究 (Madeka et al., 2022) に基づいて、我々は同様に周期的レビュー在庫管理問題を外因性決定プロセスとして定式化し、ほとんどの状態がエージェントの制御外にある。
Madeka et al., 2022は、歴史的データを再生してこの問題を解決するシミュレータを構築する方法を示している。
本例では,歴史再生の一環として,到着過程の深部生成モデルを組み込んだ。
問題を外因性決定プロセスとして定式化することにより、マデカらによる2022年の結果を適用し、教師付き学習の削減を図ることができる。
シミュレーション研究を通じて,本手法は生産ベースラインよりも統計的に有意な利益率向上をもたらすことを示した。
実世界のA/Bテストのデータを用いて、Gen-QOTが非政治データを一般化し、その結果、購入ポリシーが従来の在庫管理システムを現実の環境で上回ることを示す。
関連論文リスト
- Neural Coordination and Capacity Control for Inventory Management [4.533373101620897]
この論文は、キャパシティ制御機構のバックテストと、在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストとバックテストとは何を意味するのかという質問に動機づけられている。
まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。
第2に,Madeka et al. 2022のExo-IDP(Exogenous Decision Process)の定式化を拡張して,定期レビュー在庫管理問題に留意し,一定の容量を示す。
論文 参考訳(メタデータ) (2024-09-24T16:23:10Z) - VC Theory for Inventory Policies [7.71791422193777]
我々は、いくつかのよく知られた在庫政策のクラスを学ぶための一般化保証を証明している。
コンテキストのない古典的な設定に焦点をあてるが、要求シーケンスの任意の分布が可能である。
本研究は,ブラックボックス学習機械にベースストックと在庫配置の概念を組み込むことが有用であることを示す。
論文 参考訳(メタデータ) (2024-04-17T16:05:03Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Online Inventory Problems: Beyond the i.i.d. Setting with Online Convex
Optimization [0.8602553195689513]
管理者がその累積損失を最小限に抑えるため、管理者が部分的履歴情報に基づいて逐次補充決定を行う多製品在庫管理問題について検討する。
我々は,非I.d.要求問題やステートフル・ダイナミクスの問題に対して,証明可能な保証を有するオンラインアルゴリズムであるMaxCOSDを提案する。
論文 参考訳(メタデータ) (2023-07-12T10:00:22Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Deep Inventory Management [3.578617477295742]
本稿では,定期的な在庫管理システムを実現するための深層強化学習手法を提案する。
いくつかのポリシー学習アプローチが古典的ベースラインアプローチと競合するか、あるいは競争的であることを示す。
論文 参考訳(メタデータ) (2022-10-06T18:00:25Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。