論文の概要: Using General Value Functions to Learn Domain-Backed Inventory
Management Policies
- arxiv url: http://arxiv.org/abs/2311.02125v1
- Date: Fri, 3 Nov 2023 08:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 19:24:39.196529
- Title: Using General Value Functions to Learn Domain-Backed Inventory
Management Policies
- Title(参考訳): 一般価値関数を使ってドメイン支援在庫管理ポリシーを学ぶ
- Authors: Durgesh Kalwar, Omkar Shelke, Harshad Khadilkar
- Abstract要約: 既存の文献では、一般的な価値関数(GVF)は主に補助的なタスク学習に使われてきた。
我々は、この能力を用いて、ストックアウト確率や無駄量などのドメインクリティカルな特性に基づいてGVFを訓練する。
本稿では、GVF予測を用いて、RLエージェントが提案する決定について、さらにドメイン支援された洞察を提供することを示す。
- 参考スコア(独自算出の注目度): 2.0257616108612373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the inventory management problem, where the goal is to balance
conflicting objectives such as availability and wastage of a large range of
products in a store. We propose a reinforcement learning (RL) approach that
utilises General Value Functions (GVFs) to derive domain-backed inventory
replenishment policies. The inventory replenishment decisions are modelled as a
sequential decision making problem, which is challenging due to uncertain
demand and the existence of aggregate (cross-product) constraints. In existing
literature, GVFs have primarily been used for auxiliary task learning. We use
this capability to train GVFs on domain-critical characteristics such as
prediction of stock-out probability and wastage quantity. Using this domain
expertise for more effective exploration, we train an RL agent to compute the
inventory replenishment quantities for a large range of products (up to 6000 in
the reported experiments), which share aggregate constraints such as the total
weight/volume per delivery. Additionally, we show that the GVF predictions can
be used to provide additional domain-backed insights into the decisions
proposed by the RL agent. Finally, since the environment dynamics are fully
transferred, the trained GVFs can be used for faster adaptation to vastly
different business objectives (for example, due to the start of a promotional
period or due to deployment in a new customer environment).
- Abstract(参考訳): 在庫管理の問題は、店内における広範囲の製品の可用性や無駄といった相反する目標のバランスをとることを目的としている。
本稿では、一般価値関数(GVF)を利用してドメイン支援在庫補充政策を導出する強化学習(RL)手法を提案する。
在庫補充決定は、不確定な需要と集約的(クロスプロダクト)制約の存在により困難である逐次的意思決定問題としてモデル化される。
既存の文献では、GVFは主に補助的なタスク学習に使われてきた。
この能力を用いて,ストックアウト確率の予測やウェーステージ量などのドメインクリティカルな特性についてgvfsを訓練する。
この領域の専門知識をより効果的に探索するために、我々はRLエージェントを訓練し、大量の製品(報告された実験で最大6000個まで)の在庫補充量を計算する。
さらに,gvf予測は,rlエージェントが提案する決定に対するドメインバックの洞察を付加的に提供できることを示す。
最後に、環境ダイナミクスが完全に移行されているため、トレーニングされたGVFは、非常に異なるビジネス目標(例えば、プロモーション期間の開始や新しい顧客環境への展開による)への迅速な適応に使用することができる。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Zero-shot Generalization in Inventory Management: Train, then Estimate and Decide [0.0]
現実世界の在庫管理における深層強化学習(DRL)の展開が課題となっている。
これらの課題は研究のギャップを浮き彫りにして、パラメータの不確実性の下でのシーケンシャルな意思決定をモデル化し解決するための統一フレームワークの必要性を示唆している。
我々は、在庫管理のためのDRLの未探索領域を探索し、ゼロショット一般化(ZSG)の下での一般有能エージェント(GCAs)の訓練に対処する。
論文 参考訳(メタデータ) (2024-11-01T11:20:05Z) - Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - Beyond Expected Return: Accounting for Policy Reproducibility when
Evaluating Reinforcement Learning Algorithms [9.649114720478872]
強化学習(Reinforcement Learning, RL)における多くの応用は、環境にノイズオリティが存在する。
これらの不確実性は、ひとつのロールアウトから別のロールアウトまで、まったく同じポリシーを別々に実行します。
RL の一般的な評価手順は、その分布の拡散を考慮しない期待された戻り値のみを用いて、連続した戻り値分布を要約する。
我々の研究は、この拡散をポリシーとして定義している: 何度もロールアウトするときに同様のパフォーマンスを得るポリシーの能力は、いくつかの現実世界のアプリケーションにおいて重要な特性である。
論文 参考訳(メタデータ) (2023-12-12T11:22:31Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Cooperative Multi-Agent Reinforcement Learning for Inventory Management [0.5276232626689566]
在庫管理のための強化学習(RL)は、初期の研究分野である。
本稿では,1つの倉庫と複数の店舗からなる,GPU並列化された独自のシステムを提案する。
標準在庫管理ポリシーより優れたシステムを実現する。
論文 参考訳(メタデータ) (2023-04-18T06:55:59Z) - Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management [62.23979094308932]
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
論文 参考訳(メタデータ) (2022-12-15T09:35:54Z) - Intelligent Warehouse Allocator for Optimal Regional Utilization [0.0]
この倉庫配置問題に対する効率的なソリューションを構築するために、機械学習と最適化手法を使用します。
このソリューションを用いてバックテストを行い、2つの重要な指標である地域利用率(RU)と2日配達率(2DD)において大きな上昇を示すことにより、このモデルの効率性を検証する。
論文 参考訳(メタデータ) (2020-07-09T21:46:15Z) - Feature Alignment and Restoration for Domain Generalization and
Adaptation [93.39253443415392]
クロスドメイン機能アライメントは、ドメイン不変表現を学ぶために、異なるドメインの特徴分布を抽出するために広く研究されてきた。
本稿では,FAR(Feature Alignment and Restoration)と呼ばれる統合フレームワークを提案する。
複数の分類ベンチマークの実験は、ドメインの一般化と教師なしドメインの適応の両方のためのFARフレームワークの性能と強力な一般化を実証している。
論文 参考訳(メタデータ) (2020-06-22T05:08:13Z) - Universal Source-Free Domain Adaptation [57.37520645827318]
ドメイン適応のための新しい2段階学習プロセスを提案する。
Procurementの段階では、今後のカテゴリギャップやドメインシフトに関する事前知識を前提とせず、将来的なソースフリーデプロイメントのためのモデルの提供を目標としています。
Deploymentの段階では、幅広いカテゴリギャップをまたいで動作可能な統一適応アルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2020-04-09T07:26:20Z) - Towards Inheritable Models for Open-Set Domain Adaptation [56.930641754944915]
本稿では、将来、ソースデータセットが存在しない場合の適応を容易にするために、ソース学習モデルを用いた実用的なドメイン適応パラダイムを提案する。
本稿では,ソースデータがない場合でも,対象領域に対して最適なソースモデルの選択を可能にするために,継承可能性の定量化を目的とする手法を提案する。
論文 参考訳(メタデータ) (2020-04-09T07:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。