論文の概要: SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding
- arxiv url: http://arxiv.org/abs/2502.06440v1
- Date: Mon, 10 Feb 2025 13:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:46.255380
- Title: SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding
- Title(参考訳): SIGMA:シェーフインフォーム型幾何学的マルチエージェントパスフィニング
- Authors: Shuhao Liao, Weihang Xia, Yuhong Cao, Weiheng Dai, Chengyang He, Wenjun Wu, Guillaume Sartoretti,
- Abstract要約: MAPF(Multi-Agent Path Finding)問題は、既知の、潜在的に障害物のある環境において、複数のエージェントに対して最も短く、衝突のない経路を決定することを目的としている。
本稿では,分散化された深層強化学習にせん断理論を適用し,エージェント同士の幾何学的相互依存性を学習できるようにする新しい枠組みを提案する。
特に,ニューラルネットワークを組み込んで,せん断理論に基づく潜在空間のコンセンサスを概ねモデル化し,自己教師型学習を通じて学習する。
- 参考スコア(独自算出の注目度): 4.801673346687721
- License:
- Abstract: The Multi-Agent Path Finding (MAPF) problem aims to determine the shortest and collision-free paths for multiple agents in a known, potentially obstacle-ridden environment. It is the core challenge for robotic deployments in large-scale logistics and transportation. Decentralized learning-based approaches have shown great potential for addressing the MAPF problems, offering more reactive and scalable solutions. However, existing learning-based MAPF methods usually rely on agents making decisions based on a limited field of view (FOV), resulting in short-sighted policies and inefficient cooperation in complex scenarios. There, a critical challenge is to achieve consensus on potential movements between agents based on limited observations and communications. To tackle this challenge, we introduce a new framework that applies sheaf theory to decentralized deep reinforcement learning, enabling agents to learn geometric cross-dependencies between each other through local consensus and utilize them for tightly cooperative decision-making. In particular, sheaf theory provides a mathematical proof of conditions for achieving global consensus through local observation. Inspired by this, we incorporate a neural network to approximately model the consensus in latent space based on sheaf theory and train it through self-supervised learning. During the task, in addition to normal features for MAPF as in previous works, each agent distributedly reasons about a learned consensus feature, leading to efficient cooperation on pathfinding and collision avoidance. As a result, our proposed method demonstrates significant improvements over state-of-the-art learning-based MAPF planners, especially in relatively large and complex scenarios, demonstrating its superiority over baselines in various simulations and real-world robot experiments.
- Abstract(参考訳): MAPF(Multi-Agent Path Finding)問題は、既知の、潜在的に障害物のある環境において、複数のエージェントに対して最も短く、衝突のない経路を決定することを目的としている。
これは、大規模ロジスティクスと輸送におけるロボット展開における中核的な課題である。
分散学習ベースのアプローチはMAPF問題に対処する大きな可能性を示し、よりリアクティブでスケーラブルなソリューションを提供しています。
しかし、既存の学習ベースのMAPF法は、通常、限られた視野(FOV)に基づいて意思決定を行うエージェントに依存しており、結果として、短期的な政策と複雑なシナリオにおける非効率な協調をもたらす。
そこでは、限られた観測とコミュニケーションに基づいて、エージェント間の潜在的な動きについてのコンセンサスを達成することが重要な課題である。
この課題に対処するために、分散化された深層強化学習にせん断理論を適用し、エージェントが局所的なコンセンサスを通して幾何学的相互依存を学習し、それらを緊密に協調的な意思決定に利用できるようにする新しい枠組みを導入する。
特に、せん断理論は局所的な観測を通して大域的なコンセンサスを達成するための条件の数学的証明を提供する。
これに触発されたニューラルネットワークは、せん断理論に基づいて潜伏空間のコンセンサスを概ねモデル化し、自己教師型学習を通じて学習する。
作業中、MAPFの通常の特徴に加えて、各エージェントは学習されたコンセンサスの特徴について分散的に理由づけを行い、パスフィンディングと衝突回避の効果的な協力につながった。
提案手法は,最先端の学習型MAPFプランナ,特に大規模で複雑なシナリオにおいて,様々なシミュレーションや実世界のロボット実験において,ベースラインよりも優れていることを示す。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。
訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文 参考訳(メタデータ) (2023-10-25T14:21:22Z) - Multi-Agent Path Finding with Prioritized Communication Learning [44.89255851944412]
通信トポロジにテキスト単純計画の優先順位を組み込んだPrIoritized Communication Learning(PICO)を提案する。
PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-08T04:04:19Z) - Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems [0.3883460584034765]
そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2021-09-10T16:50:45Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。