論文の概要: Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration
- arxiv url: http://arxiv.org/abs/2301.03398v1
- Date: Mon, 9 Jan 2023 14:53:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 18:04:20.991338
- Title: Asynchronous Multi-Agent Reinforcement Learning for Efficient Real-Time
Multi-Robot Cooperative Exploration
- Title(参考訳): リアルタイムマルチロボット協調探索のための非同期マルチエージェント強化学習
- Authors: Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu,
Yunfei Xiang, Ruixin Huang, Huazhong Yang, Yi Wu, Yu Wang
- Abstract要約: 本稿では,複数のロボットが,未知の領域をできるだけ早く探索する必要がある,協調探索の課題について考察する。
既存のMARLベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクション作成ステップを採用している。
本稿では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
- 参考スコア(独自算出の注目度): 16.681164058779146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of cooperative exploration where multiple robots need
to cooperatively explore an unknown region as fast as possible. Multi-agent
reinforcement learning (MARL) has recently become a trending paradigm for
solving this challenge. However, existing MARL-based methods adopt
action-making steps as the metric for exploration efficiency by assuming all
the agents are acting in a fully synchronous manner: i.e., every single agent
produces an action simultaneously and every single action is executed
instantaneously at each time step. Despite its mathematical simplicity, such a
synchronous MARL formulation can be problematic for real-world robotic
applications. It can be typical that different robots may take slightly
different wall-clock times to accomplish an atomic action or even periodically
get lost due to hardware issues. Simply waiting for every robot being ready for
the next action can be particularly time-inefficient. Therefore, we propose an
asynchronous MARL solution, Asynchronous Coordination Explorer (ACE), to tackle
this real-world challenge. We first extend a classical MARL algorithm,
multi-agent PPO (MAPPO), to the asynchronous setting and additionally apply
action-delay randomization to enforce the learned policy to generalize better
to varying action delays in the real world. Moreover, each navigation agent is
represented as a team-size-invariant CNN-based policy, which greatly benefits
real-robot deployment by handling possible robot lost and allows
bandwidth-efficient intra-agent communication through low-dimensional CNN
features. We first validate our approach in a grid-based scenario. Both
simulation and real-robot results show that ACE reduces over 10% actual
exploration time compared with classical approaches. We also apply our
framework to a high-fidelity visual-based environment, Habitat, achieving 28%
improvement in exploration efficiency.
- Abstract(参考訳): 我々は,複数のロボットが協調して未知の領域をできるだけ早く探索する必要がある協調探索の問題を考える。
マルチエージェント強化学習(MARL)はこの課題を解決するためのトレンドパラダイムとなっている。
しかしながら、既存のmarlベースの手法では、すべてのエージェントが完全に同期的に動作していると仮定して、探索効率の指標としてアクションメイキングのステップを採用する:すなわち、すべてのエージェントが同時にアクションを生成し、すべてのアクションが各タイムステップで瞬時に実行される。
数学的単純さにもかかわらず、そのような同期MARLの定式化は現実世界のロボットアプリケーションには問題となる。
異なるロボットが、アトミックアクションを達成するためにわずかに異なる壁時計時間を取ることや、ハードウェアの問題のために定期的に失われることが典型的である。
全てのロボットが次のアクションの準備が整うのを待つことは、特に時間非効率だ。
そこで本研究では,非同期MARLソリューションであるAsynchronous Coordination Explorer (ACE)を提案する。
まず,従来のMARLアルゴリズムであるMAPPO(Multi-agent PPO)を非同期設定に拡張し,さらに動作遅延のランダム化を適用して実世界の様々な動作遅延を一般化する。
さらに、各ナビゲーションエージェントは、チームサイズ不変のCNNベースのポリシーとして表現され、ロボットの紛失を処理し、低次元CNN機能による帯域幅効率の高いエージェント間通信を可能にすることで、実ロボットの展開に大きな恩恵を与える。
まず、グリッドベースのシナリオでアプローチを検証する。
シミュレーションと実ロボット実験の結果から、aceは従来のアプローチに比べて10%以上の探索時間を短縮できることがわかった。
また,このフレームワークを高忠実度なビジュアルベース環境であるhabitatに適用し,探索効率を28%向上させた。
関連論文リスト
- MAexp: A Generic Platform for RL-based Multi-Agent Exploration [5.672198570643586]
既存のプラットフォームはサンプリングの非効率性とマルチエージェント強化学習(MARL)アルゴリズムの多様性の欠如に悩まされている。
我々は、多エージェント探索のための汎用プラットフォームであるMAexpを提案し、最先端のMARLアルゴリズムと代表シナリオを統合した。
論文 参考訳(メタデータ) (2024-04-19T12:00:10Z) - Attention Graph for Multi-Robot Social Navigation with Deep
Reinforcement Learning [0.0]
深部強化学習(RL)を用いたマルチエージェント社会認識ナビゲーション戦略の学習方法であるMultiSocを提案する。
マルチエージェントディープRLに関する最近の研究から着想を得た本手法は,エージェント相互作用のグラフベース表現を利用して,エンティティ(歩行者とエージェント)の位置と視野を組み合わせる。
提案手法はソーシャルナビゲーションよりも高速に学習し,複数の異種人との群集ナビゲーションに挑戦する上で,効率的なマルチエージェントの暗黙調整を可能にする。
論文 参考訳(メタデータ) (2024-01-31T15:24:13Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Multi-robot Social-aware Cooperative Planning in Pedestrian Environments
Using Multi-agent Reinforcement Learning [2.7716102039510564]
我々は、非政治的マルチエージェント強化学習(MARL)に基づく、新しいマルチロボット・ソーシャル・アウェア・効率的な協調プランナーを提案する。
我々は、時間空間グラフ(TSG)に基づくソーシャルエンコーダを採用し、その視野における各ロボットと歩行者の社会的関係の重要性をよりよく抽出する。
論文 参考訳(メタデータ) (2022-11-29T03:38:47Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Intelligent Trajectory Design for RIS-NOMA aided Multi-robot
Communications [59.34642007625687]
目的は,ロボットの軌道とNOMA復号命令を協調的に最適化することで,マルチロボットシステムにおける全軌道の総和率を最大化することである。
ARIMAモデルとDouble Deep Q-network (D$3$QN)アルゴリズムを組み合わせたML方式を提案する。
論文 参考訳(メタデータ) (2022-05-03T17:14:47Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Loosely Synchronized Search for Multi-agent Path Finding with
Asynchronous Actions [10.354181009277623]
マルチエージェントパス検索(MAPF)は、各開始位置と目標位置の間の複数のエージェントの衝突のないパスのアンサンブルを決定する。
この記事では、エージェントが必ずしも同時に起動および停止しない非同期アクションによるMAPFの自然な一般化を紹介します。
論文 参考訳(メタデータ) (2021-03-08T02:34:17Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。