論文の概要: Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management
- arxiv url: http://arxiv.org/abs/2212.07684v1
- Date: Thu, 15 Dec 2022 09:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 16:24:12.967896
- Title: Multi-Agent Reinforcement Learning with Shared Resources for Inventory
Management
- Title(参考訳): 在庫管理のための共有資源を用いたマルチエージェント強化学習
- Authors: Yuandong Ding, Mingxiao Feng, Guozi Liu, Wei Jiang, Chuheng Zhang, Li
Zhao, Lei Song, Houqiang Li, Yan Jin, Jiang Bian
- Abstract要約: 私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
- 参考スコア(独自算出の注目度): 62.23979094308932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the inventory management (IM) problem where we
need to make replenishment decisions for a large number of stock keeping units
(SKUs) to balance their supply and demand. In our setting, the constraint on
the shared resources (such as the inventory capacity) couples the otherwise
independent control for each SKU. We formulate the problem with this structure
as Shared-Resource Stochastic Game (SRSG)and propose an efficient algorithm
called Context-aware Decentralized PPO (CD-PPO). Through extensive experiments,
we demonstrate that CD-PPO can accelerate the learning procedure compared with
standard MARL algorithms.
- Abstract(参考訳): 本稿では、在庫管理(IM)問題について検討し、その供給と需要のバランスをとるために、多数の在庫管理ユニット(SKU)の補充決定を行う必要がある。
私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。
この構造を共有資源確率ゲーム(SRSG)として定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。
実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることを示した。
関連論文リスト
- InvAgent: A Large Language Model based Multi-Agent System for Inventory Management in Supply Chains [0.0]
本研究では,大規模言語モデル (LLM) を用いて複数エージェントの在庫管理システムを管理する手法を提案する。
我々のモデルであるInvAgentはレジリエンスを高め、サプライチェーンネットワーク全体の効率を向上させる。
論文 参考訳(メタデータ) (2024-07-16T04:55:17Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - MARLIM: Multi-Agent Reinforcement Learning for Inventory Management [1.1470070927586016]
本稿では、在庫管理問題に対処するため、MARLIMと呼ばれる新しい強化学習フレームワークを提案する。
このコンテキスト内では、コントローラは単一のエージェントまたは複数のエージェントを介して協調的に開発される。
実データに関する数値実験は、従来のベースラインよりも強化学習法の利点を実証している。
論文 参考訳(メタデータ) (2023-08-03T09:31:45Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply
Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。
本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文 参考訳(メタデータ) (2022-04-20T16:33:01Z) - Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。
制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。
我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文 参考訳(メタデータ) (2021-08-07T09:12:53Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - Reinforcement Learning for Multi-Product Multi-Node Inventory Management
in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。
実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文 参考訳(メタデータ) (2020-06-07T04:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。