論文の概要: Multi-agent Reinforcement Learning for Dynamic Dispatching in Material Handling Systems
- arxiv url: http://arxiv.org/abs/2409.18435v1
- Date: Fri, 27 Sep 2024 03:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:21:38.159408
- Title: Multi-agent Reinforcement Learning for Dynamic Dispatching in Material Handling Systems
- Title(参考訳): 材料処理システムにおける動的分散のためのマルチエージェント強化学習
- Authors: Xian Yeow Lee, Haiyan Wang, Daisuke Katsumata, Takaharu Matsui, Chetan Gupta,
- Abstract要約: 本稿では,動的ディスパッチ戦略を学習するためのマルチエージェント強化学習(MARL)手法を提案する。
本手法をベンチマークするために,実システムの複雑さを反映した物質処理環境を開発した。
- 参考スコア(独自算出の注目度): 5.050348337816326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a multi-agent reinforcement learning (MARL) approach to learn dynamic dispatching strategies, which is crucial for optimizing throughput in material handling systems across diverse industries. To benchmark our method, we developed a material handling environment that reflects the complexities of an actual system, such as various activities at different locations, physical constraints, and inherent uncertainties. To enhance exploration during learning, we propose a method to integrate domain knowledge in the form of existing dynamic dispatching heuristics. Our experimental results show that our method can outperform heuristics by up to 7.4 percent in terms of median throughput. Additionally, we analyze the effect of different architectures on MARL performance when training multiple agents with different functions. We also demonstrate that the MARL agents performance can be further improved by using the first iteration of MARL agents as heuristics to train a second iteration of MARL agents. This work demonstrates the potential of applying MARL to learn effective dynamic dispatching strategies that may be deployed in real-world systems to improve business outcomes.
- Abstract(参考訳): 本稿では,動的ディスパッチ戦略を学習するためのマルチエージェント強化学習(MARL)手法を提案する。
提案手法をベンチマークするために,異なる場所における様々な活動,物理的制約,不確実性など,実際のシステムの複雑さを反映した物質処理環境を開発した。
学習中の探索を強化するため,既存の動的ディスパッチヒューリスティックの形でドメイン知識を統合する手法を提案する。
実験結果から,本手法は中央値スループットにおいて,ヒューリスティックスを最大7.4%向上させることができることがわかった。
さらに、異なる機能を持つ複数のエージェントを訓練する際に、異なるアーキテクチャがMARL性能に与える影響を分析する。
また,第1回MARLエージェントをヒューリスティックとして使用して,第2回MARLエージェントのトレーニングを行うことにより,MARLエージェントの性能をさらに向上できることを示す。
この研究は、MARLを適用して実世界のシステムに展開されるビジネス成果を改善するための効果的な動的ディスパッチ戦略を学習する可能性を実証する。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Attention-Driven Multi-Agent Reinforcement Learning: Enhancing Decisions with Expertise-Informed Tasks [1.7689232761699216]
我々は,MARL(Multi-Agent Reinforcement Learning)の強化のための代替手法を提案する。
本手法は,ドメイン固有の専門知識を学習プロセスに組み込むことに重点を置いている。
注意に基づくアプローチが,MARLトレーニングプロセスの効率化に有効であることを示す。
論文 参考訳(メタデータ) (2024-04-08T20:06:33Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning [0.2538209532048867]
本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
論文 参考訳(メタデータ) (2020-03-29T17:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。