論文の概要: Multi-Agent Path Finding with Prioritized Communication Learning
- arxiv url: http://arxiv.org/abs/2202.03634v2
- Date: Thu, 10 Feb 2022 06:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 12:58:37.955286
- Title: Multi-Agent Path Finding with Prioritized Communication Learning
- Title(参考訳): 優先型コミュニケーション学習によるマルチエージェントパス探索
- Authors: Wenhao Li, Hongjun Chen, Bo Jin, Wenzhe Tan, Hongyuan Zha, Xiangfeng
Wang
- Abstract要約: 通信トポロジにテキスト単純計画の優先順位を組み込んだPrIoritized Communication Learning(PICO)を提案する。
PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。
- 参考スコア(独自算出の注目度): 44.89255851944412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent pathfinding (MAPF) has been widely used to solve large-scale
real-world problems, e.g., automation warehouses. The learning-based, fully
decentralized framework has been introduced to alleviate real-time problems and
simultaneously pursue optimal planning policy. However, existing methods might
generate significantly more vertex conflicts (or collisions), which lead to a
low success rate or more makespan. In this paper, we propose a PrIoritized
COmmunication learning method (PICO), which incorporates the \textit{implicit}
planning priorities into the communication topology within the decentralized
multi-agent reinforcement learning framework. Assembling with the classic
coupled planners, the implicit priority learning module can be utilized to form
the dynamic communication topology, which also builds an effective
collision-avoiding mechanism. PICO performs significantly better in large-scale
MAPF tasks in success rates and collision rates than state-of-the-art
learning-based planners.
- Abstract(参考訳): マルチエージェントパスフィンディング(MAPF)は、自動化倉庫などの大規模な現実世界の問題を解決するために広く用いられている。
学習ベースで完全に分散化されたフレームワークは、リアルタイム問題を緩和し、同時に最適な計画方針を追求するために導入された。
しかし、既存の手法は頂点衝突(または衝突)をかなり多く発生させる可能性があり、成功率が低いか、それ以上のものとなる。
本稿では,分散型マルチエージェント強化学習フレームワークにおける通信トポロジーに,<textit{implicit}プランニングプライオリティを組み込んだ優先順位付きコミュニケーション学習手法(pico)を提案する。
古典的な結合プランナーと組み合わせることで、暗黙の優先学習モジュールを使用して動的通信トポロジを形成し、効果的な衝突回避機構を構築することができる。
PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Imitation Learning based Alternative Multi-Agent Proximal Policy
Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。
擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。
シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文 参考訳(メタデータ) (2023-11-06T06:58:16Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。