論文の概要: UAV Pathfinding in Dynamic Obstacle Avoidance with Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.16659v1
- Date: Wed, 25 Oct 2023 14:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:21:45.290849
- Title: UAV Pathfinding in Dynamic Obstacle Avoidance with Multi-agent
Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習による動的障害物回避におけるUAVパスフィンディング
- Authors: Qizhen Wu and Lei Chen and Kexin Liu and Jinhu Lv
- Abstract要約: マルチエージェント強化学習に基づく学習手法は,エージェントにとって実現可能かつ安全な経路のオンライン計画において重要である。
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。
シミュレーション,室内環境,屋外環境における実験結果から,本手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 6.8237783245324035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning based methods are significant for online
planning of feasible and safe paths for agents in dynamic and uncertain
scenarios. Although some methods like fully centralized and fully decentralized
methods achieve a certain measure of success, they also encounter problems such
as dimension explosion and poor convergence, respectively. In this paper, we
propose a novel centralized training with decentralized execution method based
on multi-agent reinforcement learning to solve the dynamic obstacle avoidance
problem online. In this approach, each agent communicates only with the central
planner or only with its neighbors, respectively, to plan feasible and safe
paths online. We improve our methods based on the idea of model predictive
control to increase the training efficiency and sample utilization of agents.
The experimental results in both simulation, indoor, and outdoor environments
validate the effectiveness of our method. The video is available at
https://www.bilibili.com/video/BV1gw41197hV/?vd_source=9de61aecdd9fb684e546d032ef7fe7bf
- Abstract(参考訳): マルチエージェント強化学習に基づく手法は,動的かつ不確定なシナリオにおけるエージェントの実現可能かつ安全な経路のオンライン計画において重要である。
完全集中型手法や完全分散型手法のようないくつかの手法は一定の成功率を達成するが、次元の爆発や収束不良といった問題にも遭遇する。
本稿では,マルチエージェント強化学習に基づく分散実行方式による集中型学習を提案し,オンライン上での動的障害回避問題を解く。
このアプローチでは、各エージェントは中央のプランナーまたは近隣のプランナーとのみ通信し、オンライン上で実現可能かつ安全なパスを計画する。
モデル予測制御の考え方に基づく手法の改善により,エージェントのトレーニング効率とサンプル利用率の向上を図る。
シミュレーション,室内環境,屋外環境における実験結果から,本手法の有効性が検証された。
ビデオはhttps://www.bilibili.com/video/BV1gw41197hV/?
vd_source=9de61aecdd9fb684e546d032ef7fe7bf
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Imitation Learning based Alternative Multi-Agent Proximal Policy
Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。
擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。
シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文 参考訳(メタデータ) (2023-11-06T06:58:16Z) - Decentralized Adaptive Formation via Consensus-Oriented Multi-Agent
Communication [9.216867817261493]
本稿では,Consensus-based Decentralized Adaptive Formation (Cons-DecAF) フレームワークを提案する。
具体的には、コンセンサス指向のマルチエージェント通信(ConsMAC)という新しいマルチエージェント強化学習手法を開発する。
エージェントの特定の位置を事前に割り当てる代わりに、Hausdorff 距離による変位に基づく生成を用いて、生成効率を著しく向上する。
論文 参考訳(メタデータ) (2023-07-23T10:41:17Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。