Fugu-MT 論文翻訳(概要): Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding

論文の概要: Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding

arxiv url: http://arxiv.org/abs/2403.07559v2
Date: Wed, 10 Jul 2024 08:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 21:29:48.961446
Title: Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding
Title（参考訳）: マルチエージェントパスフィンディングのための優先順位付けハイブリッドポリシの組み立て
Authors: Huijie Tang, Federico Berto, Jinkyoo Park,
Abstract要約: MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
参考スコア（独自算出の注目度）: 18.06081009550052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Agent Reinforcement Learning (MARL) based Multi-Agent Path Finding (MAPF) has recently gained attention due to its efficiency and scalability. Several MARL-MAPF methods choose to use communication to enrich the information one agent can perceive. However, existing works still struggle in structured environments with high obstacle density and a high number of agents. To further improve the performance of the communication-based MARL-MAPF solvers, we propose a new method, Ensembling Prioritized Hybrid Policies (EPH). We first propose a selective communication block to gather richer information for better agent coordination within multi-agent environments and train the model with a Q learning-based algorithm. We further introduce three advanced inference strategies aimed at bolstering performance during the execution phase. First, we hybridize the neural policy with single-agent expert guidance for navigating conflict-free zones. Secondly, we propose Q value-based methods for prioritized resolution of conflicts as well as deadlock situations. Finally, we introduce a robust ensemble method that can efficiently collect the best out of multiple possible solutions. We empirically evaluate EPH in complex multi-agent environments and demonstrate competitive performance against state-of-the-art neural methods for MAPF. We open-source our code at https://github.com/ai4co/eph-mapf.
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。しかし、既存の作業は、高い障害物密度と多数のエージェントを持つ構造化環境において依然として苦労している。通信ベースMARL-MAPFソルバの性能向上を図るため,新しい手法であるEnsembling Prioritized Hybrid Policies (EPH)を提案する。まず,マルチエージェント環境におけるエージェントコーディネーションを改善するため,よりリッチな情報収集のための選択的通信ブロックを提案し,Q学習アルゴリズムを用いてモデルを訓練する。さらに,実行フェーズにおける性能向上を目的とした3つの高度な推論戦略を導入する。まず、競合のないゾーンをナビゲートするための単一エージェントの専門家ガイダンスを用いて、ニューラルネットワークポリシーをハイブリダイズする。第2に、競合の解消とデッドロック状況の優先順位付けのためのQ値に基づく手法を提案する。最後に,複数の可能な解から最適な解を効率よく収集できる頑健なアンサンブル手法を提案する。複雑なマルチエージェント環境におけるEPHを実験的に評価し,MAPFの最先端ニューラルネットワーク手法に対する競合性能を実証した。ソースコードはhttps://github.com/ai4co/eph-mapf.comで公開しています。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Learning to Solve the Min-Max Mixed-Shelves Picker-Routing Problem via Hierarchical and Parallel Decoding [0.3867363075280544]
混合棚ピッカールーティング問題(MSPRP)はロジスティクスにおける基本的な課題であり、ピッカーはSKUを効率的に回収するために混合棚環境をナビゲートする必要がある。マルチエージェント強化学習により,MSPRPのmin-max変異を解くための新しい階層的並列デコーディング手法を提案する。実験では、特に大規模およびアウト・オブ・ディストリビューションインスタンスにおいて、ソリューションの品質と推論速度の両方で最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2025-02-14T15:42:30Z)
SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding [4.801673346687721]
MAPF(Multi-Agent Path Finding)問題は、既知の、潜在的に障害物のある環境において、複数のエージェントに対して最も短く、衝突のない経路を決定することを目的としている。本稿では,分散化された深層強化学習にせん断理論を適用し,エージェント同士の幾何学的相互依存性を学習できるようにする新しい枠組みを提案する。特に,ニューラルネットワークを組み込んで,せん断理論に基づく潜在空間のコンセンサスを概ねモデル化し,自己教師型学習を通じて学習する。
論文参考訳（メタデータ） (2025-02-10T13:17:34Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Decentralized Monte Carlo Tree Search for Partially Observable Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。 MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文参考訳（メタデータ） (2023-12-26T06:57:22Z)
SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。 SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文参考訳（メタデータ） (2023-07-05T23:36:33Z)
Multi-Agent Path Finding with Prioritized Communication Learning [44.89255851944412]
通信トポロジにテキスト単純計画の優先順位を組み込んだPrIoritized Communication Learning(PICO)を提案する。 PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。
論文参考訳（メタデータ） (2022-02-08T04:04:19Z)
MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文参考訳（メタデータ） (2021-09-02T12:43:35Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Distributed Heuristic Multi-Agent Path Finding with Communication [7.854890646114447]
大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。本稿では,深層学習とコミュニケーションを組み合わせることで,MAPFの新たな学習手法を提案する。
論文参考訳（メタデータ） (2021-06-21T18:50:58Z)
Compilation-based Solvers for Multi-Agent Path Finding: a Survey, Discussion, and Future Opportunities [7.766921168069532]
このトピックの過去の発展と現在の傾向から学んだ教訓を示し、その広範な影響について議論します。最適MAPF解決のための2つの主要なアプローチは、(1)MAPFを直接解決する専用の検索ベース手法、(2)MAPFインスタンスを異なる確立された形式でインスタンスに還元するコンパイルベース手法である。
論文参考訳（メタデータ） (2021-04-23T20:13:12Z)
The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。 MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文参考訳（メタデータ） (2021-03-02T18:59:56Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文参考訳（メタデータ） (2020-03-14T21:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。