論文の概要: Neural Coordination and Capacity Control for Inventory Management
- arxiv url: http://arxiv.org/abs/2410.02817v1
- Date: Tue, 24 Sep 2024 16:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 05:34:38.662262
- Title: Neural Coordination and Capacity Control for Inventory Management
- Title(参考訳): インベントリマネジメントのためのニューラルコーディネーションとキャパシティ制御
- Authors: Carson Eisenach, Udaya Ghai, Dhruv Madeka, Kari Torkkola, Dean Foster, Sham Kakade,
- Abstract要約: この論文は、キャパシティ制御機構のバックテストと、在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストとバックテストとは何を意味するのかという質問に動機づけられている。
まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。
第2に,Madeka et al. 2022のExo-IDP(Exogenous Decision Process)の定式化を拡張して,定期レビュー在庫管理問題に留意し,一定の容量を示す。
- 参考スコア(独自算出の注目度): 4.533373101620897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the capacitated periodic review inventory control problem, focusing on a retailer managing multiple products with limited shared resources, such as storage or inbound labor at a facility. Specifically, this paper is motivated by the questions of (1) what does it mean to backtest a capacity control mechanism, (2) can we devise and backtest a capacity control mechanism that is compatible with recent advances in deep reinforcement learning for inventory management? First, because we only have a single historic sample path of Amazon's capacity limits, we propose a method that samples from a distribution of possible constraint paths covering a space of real-world scenarios. This novel approach allows for more robust and realistic testing of inventory management strategies. Second, we extend the exo-IDP (Exogenous Decision Process) formulation of Madeka et al. 2022 to capacitated periodic review inventory control problems and show that certain capacitated control problems are no harder than supervised learning. Third, we introduce a `neural coordinator', designed to produce forecasts of capacity prices, guiding the system to adhere to target constraints in place of a traditional model predictive controller. Finally, we apply a modified DirectBackprop algorithm for learning a deep RL buying policy and a training the neural coordinator. Our methodology is evaluated through large-scale backtests, demonstrating RL buying policies with a neural coordinator outperforms classic baselines both in terms of cumulative discounted reward and capacity adherence (we see improvements of up to 50% in some cases).
- Abstract(参考訳): 本稿では,貯蔵やインバウンド労働などの限られた共有資源を持つ複数の商品を管理する小売業者に焦点をあてて,キャパシタ化された定期的な在庫管理の問題に対処する。
具体的には,(1)キャパシティ制御機構のバックテスト,(2)在庫管理のための深層強化学習の最近の進歩と相容れないキャパシティ制御機構のバックテストについて,その意味を疑問視する。
まず、Amazonのキャパシティ制限の1つの歴史的なサンプルパスしか持たないため、実世界のシナリオの空間をカバーする制約パスの分布からサンプリングする手法を提案する。
この新しいアプローチは、在庫管理戦略をより堅牢で現実的なテストを可能にする。
第2に,Madeka et al 2022のExo-IDP(Exogenous Decision Process)の定式化を周期的レビュー在庫管理問題に拡張し,ある種の容量化制御問題は教師付き学習ほど難しくないことを示す。
第3に,従来のモデル予測コントローラの代わりに,対象とする制約に従うようシステムに指示することで,キャパシティ価格の予測を生成する「ニューラルコーディネータ」を導入する。
最後に、改良されたDirectBackpropアルゴリズムを適用し、深いRL購入ポリシーとニューラルコーディネータのトレーニングを行う。
提案手法は大規模バックテストを通じて評価され,ニューラルネットワークコーディネータを用いたRL購入ポリシーは,累積割引報酬とキャパシティアテンデンスの両方において古典的ベースラインを上回っている(場合によっては最大50%の改善が見られた)。
関連論文リスト
- Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Learning an Inventory Control Policy with General Inventory Arrival
Dynamics [2.3715198714015893]
本稿では,一般的な到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題に対処する。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
論文 参考訳(メタデータ) (2023-10-26T05:49:13Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Control of Dual-Sourcing Inventory Systems using Recurrent Neural
Networks [0.0]
提案したニューラルネットワークコントローラ(NNC)は、CPU時間の数分以内に、一般的に使用されるインスタンスのほぼ最適ポリシーを学習できることを示す。
我々の研究は、複雑で高次元の在庫動態を効率的に管理する新しい方法を開く。
論文 参考訳(メタデータ) (2022-01-16T19:44:06Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Residual Feedback Learning for Contact-Rich Manipulation Tasks with
Uncertainty [22.276925045008788]
emphglsrplは強化学習(RL)で既存のコントローラを改善するための定式化を提供する
位置・方向の不確実性を考慮したコンタクトリッチペグ挿入作業において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-08T13:06:35Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Deep Controlled Learning for Inventory Control [0.0]
Controlled Deep Learning (DCL)は、在庫問題に対処するために特別に設計された近似ポリシーに基づく新しいDRLフレームワークである。
DCLは、失われた在庫管理、分かりやすい在庫システム、そして無作為なリードタイムで在庫システムにおいて、既存の最先端のイテレーションを上回ります。
これらの大幅な性能改善とロバスト性改善は、在庫管理問題に適合したDRLアルゴリズムを効果的に適用する道を開く。
論文 参考訳(メタデータ) (2020-11-30T18:53:08Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。