論文の概要: Multi-Robot Path Planning Combining Heuristics and Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.01270v1
- Date: Fri, 2 Jun 2023 05:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:43:18.567850
- Title: Multi-Robot Path Planning Combining Heuristics and Multi-Agent
Reinforcement Learning
- Title(参考訳): ヒューリスティックとマルチエージェント強化学習を組み合わせたマルチロボット経路計画
- Authors: Shaoming Peng
- Abstract要約: 移動過程においては、移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。
従来の方法では、競合を避けるために探索手法を用いて経路を継続的に再設計するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。
本稿では,探索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-robot path finding in dynamic environments is a highly challenging
classic problem. In the movement process, robots need to avoid collisions with
other moving robots while minimizing their travel distance. Previous methods
for this problem either continuously replan paths using heuristic search
methods to avoid conflicts or choose appropriate collision avoidance strategies
based on learning approaches. The former may result in long travel distances
due to frequent replanning, while the latter may have low learning efficiency
due to low sample exploration and utilization, and causing high training costs
for the model. To address these issues, we propose a path planning method,
MAPPOHR, which combines heuristic search, empirical rules, and multi-agent
reinforcement learning. The method consists of two layers: a real-time planner
based on the multi-agent reinforcement learning algorithm, MAPPO, which embeds
empirical rules in the action output layer and reward functions, and a
heuristic search planner used to create a global guiding path. During movement,
the heuristic search planner replans new paths based on the instructions of the
real-time planner. We tested our method in 10 different conflict scenarios. The
experiments show that the planning performance of MAPPOHR is better than that
of existing learning and heuristic methods. Due to the utilization of empirical
knowledge and heuristic search, the learning efficiency of MAPPOHR is higher
than that of existing learning methods.
- Abstract(参考訳): 動的環境におけるマルチロボットパス探索は、非常に難しい古典的な問題である。
移動の過程において、ロボットは移動距離を最小化しながら他の移動ロボットとの衝突を避ける必要がある。
この問題の既往の方法は、衝突を避けるためにヒューリスティック探索法を用いて経路を継続的に再構築するか、学習アプローチに基づいた衝突回避戦略を選択するかのどちらかである。
前者は頻繁な再計画により長距離旅行が可能であり、後者はサンプル探索と利用の低さにより学習効率が低下し、モデルに対する高いトレーニングコストが生じる可能性がある。
これらの課題に対処するために,ヒューリスティック検索,経験則,マルチエージェント強化学習を組み合わせた経路計画手法MAPPOHRを提案する。
本手法は,マルチエージェント強化学習アルゴリズムに基づくリアルタイムプランナと,アクション出力層と報酬関数に経験則を組み込んだMAPPOと,グローバルなガイドパスを作成するためのヒューリスティックな探索プランナの2層から構成される。
移動中、ヒューリスティックな探索プランナーは、リアルタイムプランナーの指示に基づいて新しい経路を計画する。
我々は10の異なるコンフリクトシナリオでこの手法をテストした。
実験の結果,MAPPOHRの計画性能は既存の学習方法やヒューリスティック手法よりも優れていることがわかった。
経験的知識とヒューリスティック検索の活用により、MAPPOHRの学習効率は既存の学習方法よりも高い。
関連論文リスト
- LLM-A*: Large Language Model Enhanced Incremental Heuristic Search on Path Planning [91.95362946266577]
経路計画はロボット工学と自律航法における基本的な科学的問題である。
A*やその変種のような伝統的なアルゴリズムは、パスの妥当性を保証することができるが、状態空間が大きくなるにつれて、計算とメモリの非効率が著しく低下する。
本稿では, A* の正確なパスフィニング能力と LLM のグローバルな推論能力とを相乗的に組み合わせた LLM ベースの経路計画法を提案する。
このハイブリッドアプローチは、特に大規模シナリオにおいて、パス妥当性の完全性を維持しながら、時間と空間の複雑さの観点からパスフィニング効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-06-20T01:24:30Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Adversarial Multi-agent Games [6.532258098619471]
部分的に観察可能なマルチエージェント追従ゲーム(PEG)における回避目標の動作計画タスクに焦点をあてる。
これらの追尾回避問題は、捜索・救助活動や監視ロボットなど、様々な応用に関係している。
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Evolutionary Swarm Robotics: Dynamic Subgoal-Based Path Formation and
Task Allocation for Exploration and Navigation in Unknown Environments [0.0]
本稿では、視覚的に接続されたサブゴールを利用して、2つの異なる場所間の経路を確立するサブゴールベースのパス形成手法を提案する。
本論文は,経路形成に携わる多数のロボット同士の協調(交通)の問題に対処するものであり,これはサブゴール方式の性能に悪影響を及ぼす。
ローカル通信プロトコルと光信号に基づく通信を活用するタスク割り当て戦略を提案する。
論文 参考訳(メタデータ) (2023-12-27T15:13:56Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - E2R: a Hierarchical-Learning inspired Novelty-Search method to generate diverse repertoires of grasping trajectories [0.0]
プラットフォームに依存しない方法で軌道を把握できる大規模なデータセットを生成できるNSベースの新しい手法を提案する。
階層的な学習パラダイムにインスパイアされた我々の手法は、行動空間をより滑らかにするためにアプローチと理解を分離する。
3つの異なるロボットグルーパーのセットアップといくつかの標準オブジェクトによる実験により,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:13:10Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Flexible and Efficient Long-Range Planning Through Curious Exploration [13.260508939271764]
The Curious Sample Planner can realize temporallyextended plan for a wide range of really 3D task。
対照的に、標準的な計画と学習の方法は、多くの場合、これらのタスクを全く解決しなかったり、膨大な数のトレーニングサンプルでのみ実行できなかったりします。
論文 参考訳(メタデータ) (2020-04-22T21:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。