Fugu-MT 論文翻訳(概要): Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers

論文の概要: Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers

arxiv url: http://arxiv.org/abs/2212.11498v3
Date: Fri, 30 Aug 2024 14:07:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 20:50:35.753053
Title: Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers
Title（参考訳）: ロボットと人間の共同作業者による倉庫ロジスティックスのためのスケーラブルなマルチエージェント強化学習
Authors: Aleksandar Krnjaic, Raul D. Steleac, Jonathan D. Thomas, Georgios Papoudakis, Lukas Schäfer, Andrew Wing Keung To, Kuan-Ho Lao, Murat Cubuktepe, Matthew Haley, Peter Börsting, Stefano V. Albrecht,
Abstract要約: 我々は、多数の移動ロボットと人間のピッカーが協力して倉庫内でアイテムを収集、配達する倉庫について検討する。私たちが取り組んだ根本的な問題は、これらの作業員がこの作業においてパフォーマンスを最大化するために、倉庫内での動きと動作をどのように調整する必要があるかである。我々は,マネージャエージェントが労働者エージェントに目標を割り当てる階層的MARLアルゴリズムを開発し,グローバルな目標の最大化に向けて,マネージャと労働者の方針を協調的に訓練する。
参考スコア（独自算出の注目度）: 41.293077032127904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a warehouse in which dozens of mobile robots and human pickers work together to collect and deliver items within the warehouse. The fundamental problem we tackle, called the order-picking problem, is how these worker agents must coordinate their movement and actions in the warehouse to maximise performance in this task. Established industry methods using heuristic approaches require large engineering efforts to optimise for innately variable warehouse configurations. In contrast, multi-agent reinforcement learning (MARL) can be flexibly applied to diverse warehouse configurations (e.g. size, layout, number/types of workers, item replenishment frequency), and different types of order-picking paradigms (e.g. Goods-to-Person and Person-to-Goods), as the agents can learn how to cooperate optimally through experience. We develop hierarchical MARL algorithms in which a manager agent assigns goals to worker agents, and the policies of the manager and workers are co-trained toward maximising a global objective (e.g. pick rate). Our hierarchical algorithms achieve significant gains in sample efficiency over baseline MARL algorithms and overall pick rates over multiple established industry heuristics in a diverse set of warehouse configurations and different order-picking paradigms.
Abstract（参考訳）: 我々は、多数の移動ロボットと人間のピッカーが協力して倉庫内でアイテムを収集、配達する倉庫について検討する。私たちが取り組んだ、オーダーピッキング問題と呼ばれる基本的な問題は、この作業においてパフォーマンスを最大化するために、これらの作業員が倉庫内での動きと行動を調整する必要があることである。ヒューリスティックなアプローチを用いた産業手法の確立には、自然に変化する倉庫の構成を最適化するために、大規模なエンジニアリングの努力が必要である。対照的に、マルチエージェント強化学習(MARL)は、さまざまな倉庫構成(例えば、サイズ、レイアウト、労働者の番号/タイプ、アイテム補充頻度)や、さまざまな種類のオーダーピッキングパラダイム(例えば、Goods-to-PersonやPerson-to-Goods)に柔軟に適用することができる。我々は,マネージャエージェントが労働者エージェントに目標を割り当てる階層的MARLアルゴリズムを開発し,グローバルな目標(例えば,選別率)を最大化するために,管理者と労働者の方針を協調的に訓練する。我々の階層的アルゴリズムは、基本的MARLアルゴリズムよりもサンプル効率が大幅に向上し、様々な倉庫構成と異なるオーダーピッキングパラダイムにおいて、複数の確立された業界ヒューリスティックよりも全体の選択率が向上する。

関連論文リスト

Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Self-Resource Allocation in Multi-Agent LLM Systems [17.125470138044978]
本稿では,LLMがコスト,効率,性能などの要因を考慮して,複数のエージェント間で効率的に計算タスクを割り当てる方法について検討する。実験により, LLM は資源割り当てタスクにおいて高い妥当性と精度が得られることを示した。その結果,コンカレントアクションの処理におけるオーケストレータ手法よりも効率が向上し,エージェントの利用効率が向上することがわかった。
論文参考訳（メタデータ） (2025-04-02T18:15:41Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Dynamic AGV Task Allocation in Intelligent Warehouses [1.519321208145928]
急成長するAGV業界は、その効率性、信頼性、費用対効果のために広く採用されている。本稿では,AGVの戦略的利用を通じて,小規模・中規模の倉庫で普及するピッカー・ツー・パートシステムの向上に焦点をあてる。本稿では,人間AGV労働者の混成チームをコーディネートするためのニューラル動的プログラミング手法を提案する。
論文参考訳（メタデータ） (2023-12-26T12:28:25Z)
MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。 MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文参考訳（メタデータ） (2023-12-05T06:05:04Z)
Agents meet OKR: An Object and Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文参考訳（メタデータ） (2023-11-28T06:16:30Z)
Multi-Robot Coordination and Layout Design for Automated Warehousing [55.150593161240444]
我々は、最先端のMAPFアルゴリズムであっても、人間設計のレイアウトは、多数のロボットを持つ倉庫の混雑を招きかねないことを示す。倉庫のレイアウトを最適化するために,既存のシナリオ自動生成手法を拡張した。その結果,(1)交通渋滞の低減とスループットの向上,(2)ロボットの数を2倍にすることで自動倉庫のスケーラビリティの向上,(3)ユーザが特定した多様性対策でレイアウトを生成できることが示唆された。
論文参考訳（メタデータ） (2023-05-10T20:00:06Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。