Fugu-MT 論文翻訳(概要): Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers

論文の概要: Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers

arxiv url: http://arxiv.org/abs/2212.11498v1
Date: Thu, 22 Dec 2022 06:18:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-23 14:08:00.395683
Title: Scalable Multi-Agent Reinforcement Learning for Warehouse Logistics with Robotic and Human Co-Workers
Title（参考訳）: ロボットと人間の同僚による倉庫ロジスティクスのためのスケーラブルなマルチエージェント強化学習
Authors: Aleksandar Krnjaic, Jonathan D. Thomas, Georgios Papoudakis, Lukas Sch\"afer, Peter B\"orsting, Stefano V. Albrecht
Abstract要約: 我々は、何十もの移動ロボットと人間のピッカーが協力してアイテムを収集、配達する未来の倉庫を構想する。本稿では,DematicとEdinburgh大学による汎用的でスケーラブルなMARLソリューションに向けた研究開発の取り組みの現状について述べる。
参考スコア（独自算出の注目度）: 61.120820755009056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This project leverages advances in multi-agent reinforcement learning (MARL) to improve the efficiency and flexibility of order-picking systems for commercial warehouses. We envision a warehouse of the future in which dozens of mobile robots and human pickers work together to collect and deliver items within the warehouse. The fundamental problem we tackle, called the order-picking problem, is how these worker agents must coordinate their movement and actions in the warehouse to maximise performance (e.g. order throughput) under given resource constraints. Established industry methods using heuristic approaches require large engineering efforts to optimise for innately variable warehouse configurations. In contrast, the MARL framework can be flexibly applied to any warehouse configuration (e.g. size, layout, number/types of workers, item replenishment frequency) and the agents learn via a process of trial-and-error how to optimally cooperate with one another. This paper details the current status of the R&D effort initiated by Dematic and the University of Edinburgh towards a general-purpose and scalable MARL solution for the order-picking problem in realistic warehouses.
Abstract（参考訳）: このプロジェクトはMARL(Multi-agent reinforcement learning)の進歩を活用し,商業倉庫における発注システムの効率性と柔軟性を向上させる。我々は、数十台の移動ロボットと人間のピッカーが協力して倉庫内でアイテムを収集、配達する未来の倉庫を構想する。私たちが取り組んだ基本的な問題は、オーダーピッキング問題と呼ばれ、これらの作業員は、与えられたリソース制約の下でパフォーマンス(例えば、注文スループット)を最大化するために、倉庫内での動きと動作を調整する必要がある。ヒューリスティックなアプローチを用いた産業手法の確立には、自然に変化する倉庫構成を最適化するために大規模なエンジニアリング作業が必要である。対照的に、marlフレームワークは任意の倉庫構成(サイズ、レイアウト、ワーカの数/タイプ、アイテムの補充頻度など)に柔軟に適用でき、エージェントは試行錯誤のプロセスを通じて互いに最適な協調方法を学ぶことができる。本稿では,現実的な倉庫における発注問題に対する汎用的でスケーラブルなMARLソリューションに向けた,DematicとEdinburgh大学による研究開発の取り組みの現状について述べる。

関連論文リスト

Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文参考訳（メタデータ） (2025-10-06T10:44:04Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Self-Resource Allocation in Multi-Agent LLM Systems [17.125470138044978]
本稿では,LLMがコスト,効率,性能などの要因を考慮して,複数のエージェント間で効率的に計算タスクを割り当てる方法について検討する。実験により, LLM は資源割り当てタスクにおいて高い妥当性と精度が得られることを示した。その結果,コンカレントアクションの処理におけるオーケストレータ手法よりも効率が向上し,エージェントの利用効率が向上することがわかった。
論文参考訳（メタデータ） (2025-04-02T18:15:41Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Dynamic AGV Task Allocation in Intelligent Warehouses [1.519321208145928]
急成長するAGV業界は、その効率性、信頼性、費用対効果のために広く採用されている。本稿では,AGVの戦略的利用を通じて,小規模・中規模の倉庫で普及するピッカー・ツー・パートシステムの向上に焦点をあてる。本稿では,人間AGV労働者の混成チームをコーディネートするためのニューラル動的プログラミング手法を提案する。
論文参考訳（メタデータ） (2023-12-26T12:28:25Z)
MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。 MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文参考訳（メタデータ） (2023-12-05T06:05:04Z)
Agents meet OKR: An Object and Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文参考訳（メタデータ） (2023-11-28T06:16:30Z)
Multi-Robot Coordination and Layout Design for Automated Warehousing [55.150593161240444]
我々は、最先端のMAPFアルゴリズムであっても、人間設計のレイアウトは、多数のロボットを持つ倉庫の混雑を招きかねないことを示す。倉庫のレイアウトを最適化するために,既存のシナリオ自動生成手法を拡張した。その結果,(1)交通渋滞の低減とスループットの向上,(2)ロボットの数を2倍にすることで自動倉庫のスケーラビリティの向上,(3)ユーザが特定した多様性対策でレイアウトを生成できることが示唆された。
論文参考訳（メタデータ） (2023-05-10T20:00:06Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。 LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文参考訳（メタデータ） (2022-05-05T10:46:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。