論文の概要: HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding
- arxiv url: http://arxiv.org/abs/2402.15546v1
- Date: Fri, 23 Feb 2024 13:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 18:11:16.482335
- Title: HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding
- Title(参考訳): HiMAP:大規模マルチエージェントパスフィニングのためのヒューリスティックスインフォームドポリシー
- Authors: Huijie Tang, Federico Berto, Zihan Ma, Chuanbo Hua, Kyuree Ahn,
Jinkyoo Park
- Abstract要約: Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
- 参考スコア(独自算出の注目度): 16.36594480478895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale multi-agent pathfinding (MAPF) presents significant challenges in
several areas. As systems grow in complexity with a multitude of autonomous
agents operating simultaneously, efficient and collision-free coordination
becomes paramount. Traditional algorithms often fall short in scalability,
especially in intricate scenarios. Reinforcement Learning (RL) has shown
potential to address the intricacies of MAPF; however, it has also been shown
to struggle with scalability, demanding intricate implementation, lengthy
training, and often exhibiting unstable convergence, limiting its practical
application. In this paper, we introduce Heuristics-Informed Multi-Agent
Pathfinding (HiMAP), a novel scalable approach that employs imitation learning
with heuristic guidance in a decentralized manner. We train on small-scale
instances using a heuristic policy as a teacher that maps each single agent
observation information to an action probability distribution. During
pathfinding, we adopt several inference techniques to improve performance. With
a simple training scheme and implementation, HiMAP demonstrates competitive
results in terms of success rate and scalability in the field of
imitation-learning-only MAPF, showing the potential of imitation-learning-only
MAPF equipped with inference techniques.
- Abstract(参考訳): 大規模マルチエージェントパスフィンディング(MAPF)は,いくつかの領域において重要な課題である。
システムが複雑化し、多数の自律エージェントが同時に動作するようになると、効率的で衝突のない協調が最重要となる。
従来のアルゴリズムはスケーラビリティ、特に複雑なシナリオでは不足することが多い。
強化学習(Reinforcement Learning, RL)はMAPFの複雑さに対処する可能性を示しているが、拡張性や複雑な実装の要求、長い訓練、不安定な収束をしばしば示し、実用的応用を制限している。
本稿では,ヒューリスティック誘導を用いた模倣学習を分散的に行う,新しいスケーラブルな手法であるヒューリスティックスインフォームドマルチエージェントパスファイニング(himap)を提案する。
各エージェント観察情報をアクション確率分布にマップする教師として,ヒューリスティックポリシを用いた小規模インスタンスを訓練する。
パスフィニングでは,性能向上のためにいくつかの推論手法を採用する。
簡単なトレーニングスキームと実装により、HiMAPは模倣学習のみのMAPFの分野での成功率とスケーラビリティの点で競合する結果を示し、推論技術を備えた模倣学習のみのMAPFの可能性を示している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale [46.35418789518417]
マルチエージェントパスフィンディング(Multi-agent pathfinding)は、共有環境における複数のエージェントの衝突のないパスを見つけることを必要とする、難しい計算問題である。
我々はMAPF-GPTと呼ばれるMAPF問題の基盤モデルを構築した。
擬似学習を用いて、部分観測可能性の条件下での行動を生成するための準最適専門家軌道のセットに関する政策を訓練した。
MAPF-GPTは、様々な問題インスタンスにおいて、現在最も優れた学習可能なMAPF解法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-29T12:55:10Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Traj-MAE: Masked Autoencoders for Trajectory Prediction [69.7885837428344]
軌道予測は、危険を予測して信頼性の高い自動運転システムを構築する上で重要な課題である。
本稿では,運転環境におけるエージェントの複雑な動作をよりよく表現する,軌道予測のための効率的なマスク付きオートエンコーダを提案する。
複数エージェント設定と単一エージェント設定の両方の実験結果から,Traj-MAEが最先端手法と競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-03-12T16:23:27Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Multi-Agent Path Finding with Prioritized Communication Learning [44.89255851944412]
通信トポロジにテキスト単純計画の優先順位を組み込んだPrIoritized Communication Learning(PICO)を提案する。
PICOは、最先端の学習ベースプランナよりも、成功率や衝突率において、大規模なMAPFタスクにおいて、大幅に改善されている。
論文 参考訳(メタデータ) (2022-02-08T04:04:19Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - MAPPER: Multi-Agent Path Planning with Evolutionary Reinforcement
Learning in Mixed Dynamic Environments [30.407700996710023]
本稿では,進化的強化学習法(MAPPER)を用いた分散部分観測可能なマルチエージェントパス計画を提案する。
我々は、長距離ナビゲーションタスクを、グローバルプランナーの指導の下で、より簡単なサブタスクに分解する。
提案手法は,イメージベース表現を用いて動的障害物の挙動をモデル化し,均質性の仮定を伴わない混合動的環境におけるポリシーを訓練する。
論文 参考訳(メタデータ) (2020-07-30T20:14:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。