論文の概要: MARL Warehouse Robots
- arxiv url: http://arxiv.org/abs/2512.04463v2
- Date: Tue, 09 Dec 2025 07:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 14:12:22.832966
- Title: MARL Warehouse Robots
- Title(参考訳): MARL倉庫ロボット
- Authors: Price Allman, Lian Thang, Dre Simmons, Salmon Riaz,
- Abstract要約: 協調型倉庫ロボットのためのマルチエージェント強化学習(MARL)アルゴリズムの比較検討を行った。
我々は,ロボットウェアハウス(RWARE)環境におけるQmixとIPPOを評価し,独自のUnity 3Dシミュレーションを行った。
Unity ML-Agentsでのデプロイメントを成功させ、1Mのトレーニングステップの後、一貫したパッケージデリバリを実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a comparative study of multi-agent reinforcement learning (MARL) algorithms for cooperative warehouse robotics. We evaluate QMIX and IPPO on the Robotic Warehouse (RWARE) environment and a custom Unity 3D simulation. Our experiments reveal that QMIX's value decomposition significantly outperforms independent learning approaches (achieving 3.25 mean return vs. 0.38 for advanced IPPO), but requires extensive hyperparameter tuning -- particularly extended epsilon annealing (5M+ steps) for sparse reward discovery. We demonstrate successful deployment in Unity ML-Agents, achieving consistent package delivery after 1M training steps. While MARL shows promise for small-scale deployments (2-4 robots), significant scaling challenges remain. Code and analyses: https://pallman14.github.io/MARL-QMIX-Warehouse-Robots/
- Abstract(参考訳): 協調型倉庫ロボットのためのマルチエージェント強化学習(MARL)アルゴリズムの比較検討を行った。
我々は,ロボットウェアハウス(RWARE)環境におけるQMIXとIPPOを評価し,独自のUnity 3Dシミュレーションを行った。
実験の結果、QMIXの値分解は独立した学習手法(高度なIPPOでは3.25平均リターン対0.38)を大幅に上回っていることがわかった。
Unity ML-Agentsでのデプロイメントを成功させ、1Mのトレーニングステップの後、一貫したパッケージデリバリを実現しました。
MARLは小規模展開(2-4ロボット)を約束するが、大きなスケーリングの課題は残る。
コードと分析:https://pallman14.github.io/MARL-QMIX-Warehouse-Robots/
関連論文リスト
- Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark [72.46357004059661]
Generalist Virtual Agents (GVA) は自律的なタスク実行において大きな可能性を示している。
これらの課題に対処するため,ステップワイズ多次元ジェネラリスト・リワードモデルを提案する。
同様に、エージェントトレーニング用のきめ細かい信号を提供し、推論時間スケーリングのためのより良いアクションを選択することができる。
論文 参考訳(メタデータ) (2025-03-24T13:30:47Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning [18.762198598488066]
マルチエージェント強化学習(MARL)は、エージェントが広い共同行動空間内で探索する必要がある。
EMAXは価値ベースのMARLアルゴリズムをシームレスに拡張するフレームワークである。
論文 参考訳(メタデータ) (2023-02-07T12:51:20Z) - Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration [16.681164058779146]
本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。
既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。
本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
論文 参考訳(メタデータ) (2023-01-09T14:53:38Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Intelligent Trajectory Design for RIS-NOMA aided Multi-robot
Communications [59.34642007625687]
目的は,ロボットの軌道とNOMA復号命令を協調的に最適化することで,マルチロボットシステムにおける全軌道の総和率を最大化することである。
ARIMAモデルとDouble Deep Q-network (D$3$QN)アルゴリズムを組み合わせたML方式を提案する。
論文 参考訳(メタデータ) (2022-05-03T17:14:47Z) - Kimera-Multi: Robust, Distributed, Dense Metric-Semantic SLAM for
Multi-Robot Systems [92.26462290867963]
Kimera-Multiは、最初のマルチロボットシステムであり、不正なインターループとイントラロボットループの閉鎖を識別し拒否することができる。
我々は、フォトリアリスティックシミュレーション、SLAMベンチマークデータセット、地上ロボットを用いて収集された屋外データセットの挑戦において、Kimera-Multiを実証した。
論文 参考訳(メタデータ) (2021-06-28T03:56:40Z) - Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。
実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。
本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-05-12T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。