論文の概要: MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments
- arxiv url: http://arxiv.org/abs/2007.15724v1
- Date: Thu, 30 Jul 2020 20:14:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 13:40:22.026107
- Title: MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments
- Title(参考訳): MAPPER:混合動的環境における進化的強化学習によるマルチエージェントパス計画
- Authors: Zuxin Liu, Baiming Chen, Hongyi Zhou, Guru Koushik, Martial Hebert,
Ding Zhao
- Abstract要約: 本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
- 参考スコア(独自算出の注目度): 30.407700996710023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent navigation in dynamic environments is of great industrial value
when deploying a large scale fleet of robot to real-world applications. This
paper proposes a decentralized partially observable multi-agent path planning
with evolutionary reinforcement learning (MAPPER) method to learn an effective
local planning policy in mixed dynamic environments. Reinforcement
learning-based methods usually suffer performance degradation on long-horizon
tasks with goal-conditioned sparse rewards, so we decompose the long-range
navigation task into many easier sub-tasks under the guidance of a global
planner, which increases agents' performance in large environments. Moreover,
most existing multi-agent planning approaches assume either perfect information
of the surrounding environment or homogeneity of nearby dynamic agents, which
may not hold in practice. Our approach models dynamic obstacles' behavior with
an image-based representation and trains a policy in mixed dynamic environments
without homogeneity assumption. To ensure multi-agent training stability and
performance, we propose an evolutionary training approach that can be easily
scaled to large and complex environments. Experiments show that MAPPER is able
to achieve higher success rates and more stable performance when exposed to a
large number of non-cooperative dynamic obstacles compared with traditional
reaction-based planner LRA* and the state-of-the-art learning-based method.
- Abstract(参考訳): 動的環境におけるマルチエージェントナビゲーションは、大規模なロボット群を現実世界のアプリケーションに展開する際の大きな産業的価値である。
本稿では,進化的強化学習(MAPPER)法を用いた分散部分観測可能なマルチエージェントパス計画を提案し,混合動的環境における効率的なローカルプランニングポリシーを学習する。
強化学習に基づく手法は,通常,目標条件のスパース報酬を伴う長時間ホリゾンタスクの性能低下に苦しむため,グローバルプランナーの指導のもと,長距離ナビゲーションタスクを多数の簡単なサブタスクに分解し,大規模環境におけるエージェントのパフォーマンスを向上させる。
さらに、既存のマルチエージェント計画手法では、周囲の環境の完全な情報や近くの動的エージェントの均一性を前提としている。
提案手法は,画像に基づく表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
マルチエージェントトレーニングの安定性と性能を確保するため,大規模かつ複雑な環境に容易に拡張可能な進化的トレーニング手法を提案する。
実験の結果,MAPPERは従来の反応プランナーLRA*や最先端の学習手法と比較して,多数の非協調的動的障害に曝露した場合,高い成功率と安定した性能が得られることがわかった。
関連論文リスト
- Importance Sampling-Guided Meta-Training for Intelligent Agents in Highly Interactive Environments [43.144056801987595]
本研究では,ガイド付きメタRLと重要サンプリング(IS)を統合し,トレーニング分布を最適化する新たなトレーニングフレームワークを提案する。
現実世界のデータセットから自然な分布を推定することにより、このフレームワークは、共通および極端な駆動シナリオ間のバランスのとれたフォーカスを保証する。
論文 参考訳(メタデータ) (2024-07-22T17:57:12Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Learning Control Admissibility Models with Graph Neural Networks for
Multi-Agent Navigation [9.05607520128194]
制御適応モデル(CAM)は、任意の数のエージェントに対するオンライン推論のために簡単に構成され、使用することができる。
CAMモデルは少数のエージェントしか持たない環境で訓練でき、数百のエージェントで密集した環境に展開するために容易に構成でき、最先端の手法よりも優れた性能を実現することができる。
論文 参考訳(メタデータ) (2022-10-17T19:20:58Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。