論文の概要: Cooperative Multi-Agent Reinforcement Learning for Inventory Management
- arxiv url: http://arxiv.org/abs/2304.08769v1
- Date: Tue, 18 Apr 2023 06:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:56:28.848480
- Title: Cooperative Multi-Agent Reinforcement Learning for Inventory Management
- Title(参考訳): 在庫管理のための協調型マルチエージェント強化学習
- Authors: Madhav Khirwar, Karthik S. Gurumoorthy, Ankit Ajit Jain, Shantala
Manchenahally
- Abstract要約: 在庫管理のための強化学習(RL)は、初期の研究分野である。
本稿では,1つの倉庫と複数の店舗からなる,GPU並列化された独自のシステムを提案する。
標準在庫管理ポリシーより優れたシステムを実現する。
- 参考スコア(独自算出の注目度): 0.5276232626689566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With Reinforcement Learning (RL) for inventory management (IM) being a
nascent field of research, approaches tend to be limited to simple, linear
environments with implementations that are minor modifications of off-the-shelf
RL algorithms. Scaling these simplistic environments to a real-world supply
chain comes with a few challenges such as: minimizing the computational
requirements of the environment, specifying agent configurations that are
representative of dynamics at real world stores and warehouses, and specifying
a reward framework that encourages desirable behavior across the whole supply
chain. In this work, we present a system with a custom GPU-parallelized
environment that consists of one warehouse and multiple stores, a novel
architecture for agent-environment dynamics incorporating enhanced state and
action spaces, and a shared reward specification that seeks to optimize for a
large retailer's supply chain needs. Each vertex in the supply chain graph is
an independent agent that, based on its own inventory, able to place
replenishment orders to the vertex upstream. The warehouse agent, aside from
placing orders from the supplier, has the special property of also being able
to constrain replenishment to stores downstream, which results in it learning
an additional allocation sub-policy. We achieve a system that outperforms
standard inventory control policies such as a base-stock policy and other
RL-based specifications for 1 product, and lay out a future direction of work
for multiple products.
- Abstract(参考訳): 在庫管理のための強化学習 (Reinforcement Learning, RL) が初期段階の研究分野であるのに対し、アプローチは既成のRLアルゴリズムを微調整した単純な線形環境に限られる傾向にある。
これらの単純化された環境を実世界のサプライチェーンにスケールするには、以下の課題がある。環境の計算要件の最小化、実世界の店舗や倉庫におけるダイナミクスを代表するエージェント構成の特定、サプライチェーン全体の望ましい行動を促す報酬フレームワークの指定。
本研究では,1つの倉庫と複数店舗からなる独自のGPU並列化環境,拡張された状態と行動空間を取り入れたエージェント環境ダイナミクスのための新しいアーキテクチャ,大規模小売店のサプライチェーンニーズに対して最適化を目指す共通報酬仕様を提案する。
サプライチェーングラフの各頂点は、独自のインベントリに基づいて、頂点上流に補給命令を配置できる独立したエージェントである。
倉庫エージェントは、サプライヤからの注文とは別に、下流の店舗への補給を制限できる特別な資産を有しており、結果として追加のアロケーションサブポリシーを学ぶことができる。
我々は,1製品に対する基準ストックポリシーや他のRLベースの仕様など,標準在庫管理ポリシーを上回り,複数の製品に対する今後の作業方向を示すシステムを実現する。
関連論文リスト
- ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Enhancing Supply Chain Visibility with Knowledge Graphs and Large Language Models [49.898152180805454]
本稿では,サプライチェーンの可視性を高めるために,知識グラフ(KG)と大規模言語モデル(LLM)を活用した新しいフレームワークを提案する。
我々のゼロショットLPM駆動アプローチは、様々な公共情報源からのサプライチェーン情報の抽出を自動化する。
NERとREタスクの精度が高く、複雑な多層供給ネットワークを理解する効果的なツールを提供する。
論文 参考訳(メタデータ) (2024-08-05T17:11:29Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - MARLIM: Multi-Agent Reinforcement Learning for Inventory Management [1.1470070927586016]
本稿では、在庫管理問題に対処するため、MARLIMと呼ばれる新しい強化学習フレームワークを提案する。
このコンテキスト内では、コントローラは単一のエージェントまたは複数のエージェントを介して協調的に開発される。
実データに関する数値実験は、従来のベースラインよりも強化学習法の利点を実証している。
論文 参考訳(メタデータ) (2023-08-03T09:31:45Z) - Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization [5.590976834881065]
我々は、在庫管理が深層強化学習(DRL)アルゴリズムを確実に適用し、評価するユニークな機会であると主張している。
ひとつはHendsight Differentiable Policy Optimization (HDPO)で、政策性能を最適化するために勾配降下を行う。
第2の手法は、ポリシー(神経)ネットワーク構造と在庫ネットワークの構造を整合させることである。
論文 参考訳(メタデータ) (2023-06-20T02:58:25Z) - No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand
Distribution [48.27759561064771]
我々は[Cachon and Zipkin, 1999]で導入された2つのエケロンサプライチェーンモデルについて, 2つの異なる設定で検討する。
両設定の最適在庫決定に対する後悔と収束の両面において良好な保証を達成するアルゴリズムを設計する。
私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。
論文 参考訳(メタデータ) (2022-10-23T08:45:39Z) - Concepts and Algorithms for Agent-based Decentralized and Integrated
Scheduling of Production and Auxiliary Processes [78.120734120667]
本稿ではエージェントベースの分散型統合スケジューリング手法について述べる。
要求の一部は、線形にスケールする通信アーキテクチャを開発することである。
このアプローチは、工業的要件に基づいた例を使って説明されます。
論文 参考訳(メタデータ) (2022-05-06T18:44:29Z) - Control of Dual-Sourcing Inventory Systems using Recurrent Neural
Networks [0.0]
提案したニューラルネットワークコントローラ(NNC)は、CPU時間の数分以内に、一般的に使用されるインスタンスのほぼ最適ポリシーを学習できることを示す。
我々の研究は、複雑で高次元の在庫動態を効率的に管理する新しい方法を開く。
論文 参考訳(メタデータ) (2022-01-16T19:44:06Z) - Creating Training Sets via Weak Indirect Supervision [66.77795318313372]
Weak Supervision (WS)フレームワークは、複数の潜在的にノイズの多い監督ソースからトレーニングラベルを合成する。
Weak Indirect Supervision (WIS) は、トレーニングラベルの自動合成のための新しい研究課題である。
我々は,ユーザが提供するラベル関係を利用して間接的な監督源をモデル化し活用する確率論的モデリング手法PLRMを開発した。
論文 参考訳(メタデータ) (2021-10-07T14:09:35Z) - Will bots take over the supply chain? Revisiting Agent-based supply
chain automation [71.77396882936951]
エージェントベースのサプライチェーンは2000年初頭から提案されている。
エージェントベースの技術は成熟しており、サプライチェーンに浸透している他の支援技術はギャップを埋めている。
例えば、IoTテクノロジのユビキティは、エージェントがサプライチェーンの状態を“理解”し、自動化のための新たな可能性を開くのに役立つ。
論文 参考訳(メタデータ) (2021-09-03T18:44:26Z) - Reinforcement Learning for Multi-Product Multi-Node Inventory Management
in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。
実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文 参考訳(メタデータ) (2020-06-07T04:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。