Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning with Shared Resources for Inventory Management

論文の概要: Multi-Agent Reinforcement Learning with Shared Resources for Inventory Management

arxiv url: http://arxiv.org/abs/2212.07684v1
Date: Thu, 15 Dec 2022 09:35:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 16:24:12.967896
Title: Multi-Agent Reinforcement Learning with Shared Resources for Inventory Management
Title（参考訳）: 在庫管理のための共有資源を用いたマルチエージェント強化学習
Authors: Yuandong Ding, Mingxiao Feng, Guozi Liu, Wei Jiang, Chuheng Zhang, Li Zhao, Lei Song, Houqiang Li, Yan Jin, Jiang Bian
Abstract要約: 私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。共有資源ゲーム(SRSG)としてこの問題を定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることが実証された。
参考スコア（独自算出の注目度）: 62.23979094308932
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider the inventory management (IM) problem where we need to make replenishment decisions for a large number of stock keeping units (SKUs) to balance their supply and demand. In our setting, the constraint on the shared resources (such as the inventory capacity) couples the otherwise independent control for each SKU. We formulate the problem with this structure as Shared-Resource Stochastic Game (SRSG)and propose an efficient algorithm called Context-aware Decentralized PPO (CD-PPO). Through extensive experiments, we demonstrate that CD-PPO can accelerate the learning procedure compared with standard MARL algorithms.
Abstract（参考訳）: 本稿では、在庫管理(IM)問題について検討し、その供給と需要のバランスをとるために、多数の在庫管理ユニット(SKU)の補充決定を行う必要がある。私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。この構造を共有資源確率ゲーム(SRSG)として定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることを示した。

関連論文リスト

R1-ShareVL: Incentivizing Reasoning Capability of Multimodal Large Language Models via Share-GRPO [91.25793883692036]
我々は、強化学習(RL)を通してMLLMの推論能力を高めることを目的としている。本稿では,これらの問題に対処する新しいRL手法であるShare-GRPOを提案する。さらに、Share-GRPOは、利点計算中の報酬情報も共有している。
論文参考訳（メタデータ） (2025-05-22T13:39:32Z)
Multi-LLM Text Summarization [58.74987409988719]
本稿では,マルチLLM要約フレームワークを提案し,集中化と分散化を含む2つの異なるマルチLLM戦略について検討する。当社のフレームワークは,各会話のラウンドにおいて,生成と評価という,基本的に重要なステップを2つ備えています。我々のマルチLLM要約アプローチは, 1 つの LLM のみを最大 3 倍まで活用するベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-12-20T01:55:26Z)
InvAgent: A Large Language Model based Multi-Agent System for Inventory Management in Supply Chains [0.0]
本研究では,大規模言語モデル (LLM) を用いて複数エージェントの在庫管理システムを管理する手法を提案する。我々のモデルであるInvAgentはレジリエンスを高め、サプライチェーンネットワーク全体の効率を向上させる。
論文参考訳（メタデータ） (2024-07-16T04:55:17Z)
A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文参考訳（メタデータ） (2024-02-13T15:35:24Z)
Decentralised Q-Learning for Multi-Agent Markov Decision Processes with a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文参考訳（メタデータ） (2023-11-21T13:56:44Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
MARLIM: Multi-Agent Reinforcement Learning for Inventory Management [1.1470070927586016]
本稿では、在庫管理問題に対処するため、MARLIMと呼ばれる新しい強化学習フレームワークを提案する。このコンテキスト内では、コントローラは単一のエージェントまたは複数のエージェントを介して協調的に開発される。実データに関する数値実験は、従来のベースラインよりも強化学習法の利点を実証している。
論文参考訳（メタデータ） (2023-08-03T09:31:45Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply Chains [1.4685355149711299]
我々は、サプライチェーン在庫管理問題を解決するための最先端の深層強化学習アルゴリズムの性能を分析し、比較する。本研究では,サプライチェーンの在庫管理問題を解決するためのカスタマイズ可能な環境を提供するオープンソースソフトウェアライブラリの設計と開発について,詳細な知見を提供する。
論文参考訳（メタデータ） (2022-04-20T16:33:01Z)
Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文参考訳（メタデータ） (2021-12-04T01:40:34Z)
Controllable Summarization with Constrained Markov Decision Process [50.04321779376415]
本研究では,ユーザが特定の属性を制御できる可制御テキスト要約について検討する。制約付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。我々のフレームワークは、長さ、被覆された実体、抽象性など、要約の重要な属性を制御するために応用できる。
論文参考訳（メタデータ） (2021-08-07T09:12:53Z)
Deep Controlled Learning for Inventory Control [0.0]
在庫管理への深層強化学習(DRL)の適用は、新たな分野である。従来のDRLアルゴリズムは、もともとゲームプレイングやロボティクスといった多様な分野向けに開発されたもので、在庫管理によって引き起こされる特定の課題には適していない。本稿では,高数値問題を対象とした新しいDRLアルゴリズムであるDeep Learning (DCL)を提案する。
論文参考訳（メタデータ） (2020-11-30T18:53:08Z)
Is Independent Learning All You Need in the StarCraft Multi-Agent Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。 IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文参考訳（メタデータ） (2020-11-18T20:29:59Z)
Reinforcement Learning for Multi-Product Multi-Node Inventory Management in Supply Chains [17.260459603456745]
本稿では,サプライチェーンにおける多製品在庫管理への強化学習(RL)の適用について述べる。実験の結果,提案手法は製品販売の最大化と商品の無駄を最小化する多目的報酬を処理可能であることが示された。
論文参考訳（メタデータ） (2020-06-07T04:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。