論文の概要: Multi-Agent Reinforcement Learning for Visibility-based Persistent
Monitoring
- arxiv url: http://arxiv.org/abs/2011.01129v2
- Date: Thu, 7 Oct 2021 02:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:30:01.127683
- Title: Multi-Agent Reinforcement Learning for Visibility-based Persistent
Monitoring
- Title(参考訳): 可視性に基づく永続モニタリングのためのマルチエージェント強化学習
- Authors: Jingxi Chen, Amrish Baskaran, Zhongshun Zhang, Pratap Tokekar
- Abstract要約: Visibility-based Persistent Monitoring (VPM)問題は、ロボットが環境の変化を継続的に監視するための一連の軌道を見つけることを目指している。
本稿では,低解像度のグローバルマップと組み合わせた全エージェントの局所的な観測を入力として,各エージェントのポリシーを学習するマルチエージェントグラフ注意近ポリシー最適化(MA-G-PPO)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 14.232446342646316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Visibility-based Persistent Monitoring (VPM) problem seeks to find a set
of trajectories (or controllers) for robots to persistently monitor a changing
environment. Each robot has a sensor, such as a camera, with a limited
field-of-view that is obstructed by obstacles in the environment. The robots
may need to coordinate with each other to ensure no point in the environment is
left unmonitored for long periods of time. We model the problem such that there
is a penalty that accrues every time step if a point is left unmonitored.
However, the dynamics of the penalty are unknown to us. We present a
Multi-Agent Reinforcement Learning (MARL) algorithm for the VPM problem.
Specifically, we present a Multi-Agent Graph Attention Proximal Policy
Optimization (MA-G-PPO) algorithm that takes as input the local observations of
all agents combined with a low resolution global map to learn a policy for each
agent. The graph attention allows agents to share their information with others
leading to an effective joint policy. Our main focus is to understand how
effective MARL is for the VPM problem. We investigate five research questions
with this broader goal. We find that MA-G-PPO is able to learn a better policy
than the non-RL baseline in most cases, the effectiveness depends on agents
sharing information with each other, and the policy learnt shows emergent
behavior for the agents.
- Abstract(参考訳): Visibility-based Persistent Monitoring (VPM) 問題は、ロボットが環境の変化を継続的に監視するための軌道(またはコントローラ)を見つけることを目指している。
それぞれのロボットは、カメラのようなセンサーを持ち、環境の障害物によって妨げられる視野が限られている。
ロボットは、長時間監視されていない環境を確実にするために、互いに調整する必要があるかもしれない。
我々は、ポイントが監視されないままにしておくと、毎回、ペナルティが生じるような問題をモデル化する。
しかし、ペナルティのダイナミクスは我々には知られていない。
VPM問題に対するマルチエージェント強化学習(MARL)アルゴリズムを提案する。
具体的には,すべてのエージェントの局所的な観察を入力とし,低分解能グローバルマップと組み合わせて各エージェントのポリシーを学ぶマルチエージェントグラフ注意近方政策最適化(ma-g-ppo)アルゴリズムを提案する。
グラフの注意は、エージェントが効果的な共同ポリシーにつながる他の人と情報を共有できるようにする。
我々の主な焦点は、VPM問題に対するMARLの有効性を理解することです。
私たちはこの広い目標で5つの研究課題を調査します。
我々は,ma-g-ppoが非rlベースラインよりも優れたポリシーを学習できること,その効果はエージェントが情報を共有することに依存すること,そしてそのポリシーがエージェントに対して創発的な行動を示すこと,の2つを見出した。
関連論文リスト
- Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Decentralized Multi-Agent Active Search and Tracking when Targets
Outnumber Agents [8.692007892160913]
そこで我々は,DecSTERと呼ばれる分散マルチエージェント,マルチターゲット,同時アクティブ検索・追跡アルゴリズムを提案する。
提案アルゴリズムは,確率仮説密度フィルタの逐次モントカルロ法とトンプソンサンプリングを併用し,分散化マルチエージェント意思決定を行う。
シミュレーションでは,DecSTERは信頼性の低いエージェント間通信に頑健であり,最適サブパターン割り当て(OSPA)の指標で情報グレディベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-01-06T08:10:58Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - MACRPO: Multi-Agent Cooperative Recurrent Policy Optimization [17.825845543579195]
我々はtextitMulti-Agent Cooperative Recurrent Proximal Policy Optimization (MACRPO) と呼ばれる新しいマルチエージェントアクター批判手法を提案する。
我々は、批評家のネットワークアーキテクチャにおいてリカレント・レイヤを使用し、メタ・トラジェクトリを使用してリカレント・レイヤをトレーニングする新しいフレームワークを提案する。
連続的および離散的な行動空間を持つ3つの挑戦的マルチエージェント環境において,本アルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2021-09-02T12:43:35Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Collaborative Visual Navigation [69.20264563368762]
マルチエージェント視覚ナビゲーション(MAVN)のための大規模3次元データセットCollaVNを提案する。
様々なMAVN変種を探索し、この問題をより一般化する。
メモリ拡張通信フレームワークを提案する。各エージェントには、通信情報を永続的に保存するプライベートな外部メモリが備わっている。
論文 参考訳(メタデータ) (2021-07-02T15:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。