論文の概要: Generalizable Collaborative Search-and-Capture in Cluttered Environments via Path-Guided MAPPO and Directional Frontier Allocation
- arxiv url: http://arxiv.org/abs/2512.09410v1
- Date: Wed, 10 Dec 2025 08:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.446484
- Title: Generalizable Collaborative Search-and-Capture in Cluttered Environments via Path-Guided MAPPO and Directional Frontier Allocation
- Title(参考訳): 経路誘導MAPPOと方向フロンティア割り当てによるクラッタ環境における一般化可能な協調探索
- Authors: Jialin Ying, Zhihao Li, Zicheng Dong, Guohua Wu, Yihuan Liao,
- Abstract要約: 乱雑な環境における協調的追従回避は、まばらな報酬と制約された視野による重大な課題を示す。
反応制御によるトポロジカルプランニングをブリッジする階層型フレームワークであるPGF-MAPPOを提案する。
実験により、PGF-MAPPOはより高速なエバダに対して捕集効率が優れていることが示された。
- 参考スコア(独自算出の注目度): 7.6658082440595186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collaborative pursuit-evasion in cluttered environments presents significant challenges due to sparse rewards and constrained Fields of View (FOV). Standard Multi-Agent Reinforcement Learning (MARL) often suffers from inefficient exploration and fails to scale to large scenarios. We propose PGF-MAPPO (Path-Guided Frontier MAPPO), a hierarchical framework bridging topological planning with reactive control. To resolve local minima and sparse rewards, we integrate an A*-based potential field for dense reward shaping. Furthermore, we introduce Directional Frontier Allocation, combining Farthest Point Sampling (FPS) with geometric angle suppression to enforce spatial dispersion and accelerate coverage. The architecture employs a parameter-shared decentralized critic, maintaining O(1) model complexity suitable for robotic swarms. Experiments demonstrate that PGF-MAPPO achieves superior capture efficiency against faster evaders. Policies trained on 10x10 maps exhibit robust zero-shot generalization to unseen 20x20 environments, significantly outperforming rule-based and learning-based baselines.
- Abstract(参考訳): 乱雑な環境における協調的追従回避は、まばらな報酬と制約された視野(FOV)による重大な課題を呈する。
MARL(Standard Multi-Agent Reinforcement Learning)は、しばしば非効率な探索に悩まされ、大規模なシナリオにスケールできない。
PGF-MAPPO(Path-Guided Frontier MAPPO)を提案する。
局所的な最小値とスパース報酬を解くために、高密度報酬形成のためにA*ベースのポテンシャル場を統合する。
さらに、FPS(Farthest Point Sampling)と幾何角抑制を組み合わせた方向フロンティア配置を導入し、空間分散を強制し、カバレッジを加速する。
このアーキテクチャはパラメータ共有型分散批評家を採用しており、ロボット群に適したO(1)モデル複雑性を維持している。
実験により、PGF-MAPPOはより高速なエバダに対して捕集効率が優れていることが示された。
10×10マップでトレーニングされたポリシーは、目に見えない20×20環境への堅牢なゼロショットの一般化を示し、ルールベースのベースラインと学習ベースのベースラインを著しく上回っている。
関連論文リスト
- Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling [82.52485740425321]
アドリアックは、ディープニューラルネットワークの堅牢性にとって重要な課題である。
敵攻撃の伝達性は、爆発(最大攻撃能力)と探索(クロスモデル一般化の促進)のジレンマに直面している
論文 参考訳(メタデータ) (2025-11-01T05:43:47Z) - Efficient On-Policy Reinforcement Learning via Exploration of Sparse Parameter Space [15.65017469378437]
PPOのような政策段階的な手法は単一の勾配方向に沿って更新され、パラメータ空間のリッチな局所構造は未探索のままである。
これまでの研究では、サロゲート勾配は真の報酬の風景と相関が低いことが示されている。
本稿では,PPOやTRPOなどのオンラインアルゴリズムとシームレスに統合する,プラグイン可能なパイプラインであるExploRLerを紹介する。
論文 参考訳(メタデータ) (2025-09-30T07:13:55Z) - Tree-Guided Diffusion Planner [31.664192839205608]
事前訓練された拡散を伴う計画がテストタイム誘導制御問題に対する有望なアプローチとして浮上した。
本研究では、構造化軌道生成による探索と利用のバランスをとるゼロ時間テストタイム計画フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T17:27:44Z) - Discrete-Guided Diffusion for Scalable and Safe Multi-Robot Motion Planning [56.240199425429445]
マルチロボット運動計画(MPMP)は、共有された連続作業空間で動作する複数のロボットのための軌道を生成する。
離散マルチエージェント探索(MAPF)法は,その拡張性から広く採用されているが,粗い離散化の軌道品質は高い。
本稿では、制約付き生成拡散モデルを用いた離散MAPF解法を導入することにより、2つのアプローチの限界に対処する。
論文 参考訳(メタデータ) (2025-08-27T17:59:36Z) - SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding [11.38008343729117]
多エージェントパス探索問題は、大規模物流および輸送におけるロボット展開における中核的な課題である。
分散化深層学習にせん断理論を適用した新しい枠組みを導入する。
提案手法は、最先端の学習ベースMAPFプランナよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-10T13:17:34Z) - Multi-Agent Path Finding in Continuous Spaces with Projected Diffusion Models [57.45019514036948]
MAPF(Multi-Agent Path Finding)は、ロボット工学における基本的な問題である。
連続空間におけるMAPFの拡散モデルと制約付き最適化を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T21:27:19Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Active Neural Topological Mapping for Multi-Agent Exploration [24.91397816926568]
マルチエージェント協調探索問題では、複数のエージェントが限られた時間で感覚信号を介して見えない環境を探索する必要がある。
トポロジカルマップは、抽象的だが不可欠な情報を持つノードとエッジのみからなる、有望な代替手段である。
深層強化学習は、高速なエンドツーエンド推論を通じて(ほぼ)最適ポリシーを学ぶ大きな可能性を示している。
マルチエージェント探索作業における探索効率の向上と一般化を目的とした,Multi-Agent Neural Topological Mapping (MANTM)を提案する。
論文 参考訳(メタデータ) (2023-11-01T03:06:14Z) - POGEMA: Partially Observable Grid Environment for Multiple Agents [64.88759709443819]
POGEMAは、部分的に観測可能なマルチエージェントパスフィンディング(PO-MAPF)問題に挑戦するためのサンドボックスである。
様々なPO-MAPFに合わせることができ、プランニングと学習のための優れた試験場として機能する。
論文 参考訳(メタデータ) (2022-06-22T09:39:50Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。