論文の概要: Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment
Mapping
- arxiv url: http://arxiv.org/abs/2010.02663v1
- Date: Tue, 6 Oct 2020 12:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:50:14.020865
- Title: Heterogeneous Multi-Agent Reinforcement Learning for Unknown Environment
Mapping
- Title(参考訳): 未知環境マッピングのための異種多エージェント強化学習
- Authors: Ceyer Wakilpoor, Patrick J. Martin, Carrie Rebhuhn, Amanda Vu
- Abstract要約: 異種エージェントのチームが未知の環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
このタスクは、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全と緊急対応組織に関心を寄せている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning in heterogeneous multi-agent scenarios is important
for real-world applications but presents challenges beyond those seen in
homogeneous settings and simple benchmarks. In this work, we present an
actor-critic algorithm that allows a team of heterogeneous agents to learn
decentralized control policies for covering an unknown environment. This task
is of interest to national security and emergency response organizations that
would like to enhance situational awareness in hazardous areas by deploying
teams of unmanned aerial vehicles. To solve this multi-agent coverage path
planning problem in unknown environments, we augment a multi-agent actor-critic
architecture with a new state encoding structure and triplet learning loss to
support heterogeneous agent learning. We developed a simulation environment
that includes real-world environmental factors such as turbulence, delayed
communication, and agent loss, to train teams of agents as well as probe their
robustness and flexibility to such disturbances.
- Abstract(参考訳): 不均一なマルチエージェントシナリオにおける強化学習は、現実世界のアプリケーションにとって重要であるが、均質な設定や単純なベンチマークで見られる以上の課題を提示する。
本研究では、異種エージェントのチームが未知環境をカバーするための分散制御ポリシーを学習できるようにするアクター批判アルゴリズムを提案する。
この任務は、無人航空機のチームを配置することで危険地域における状況認識を高めたい国家の安全及び緊急対応機関への関心である。
未知環境におけるこのマルチエージェントカバレッジパス計画問題を解くために,我々は,新しい状態エンコード構造と三重項学習損失により,マルチエージェントアクタ-クリティックアーキテクチャを強化し,異種エージェント学習を支援する。
本研究では,乱れや通信遅延,エージェントの喪失といった実環境要因を含むシミュレーション環境を開発し,エージェントのチームを訓練し,その堅牢性と柔軟性を探索する。
関連論文リスト
- Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Multi-Agent Diagnostics for Robustness via Illuminated Diversity [37.38316542660311]
発光ダイバーシティ(MADRID)によるロバストネスのマルチエージェント診断法を提案する。
MADRIDは、事前訓練されたマルチエージェントポリシーの戦略的脆弱性を明らかにする様々な敵シナリオを生成する。
我々は,Google Research Footballの11vs11バージョンにおけるMADRIDの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-24T14:02:09Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning [48.667697255912614]
平均場強化学習は、同一エージェントの無限集団と相互作用する代表エージェントのポリシーに対処する。
モデルベースの平均場強化学習アルゴリズムであるSafe-M$3$-UCRLを提案する。
本アルゴリズムは,低需要領域におけるサービスアクセシビリティを確保しつつ,重要な領域における需要を効果的に満たす。
論文 参考訳(メタデータ) (2023-06-29T15:57:07Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Towards Learning Multi-agent Negotiations via Self-Play [2.28438857884398]
自己再生の反復的な手順が、徐々に多様な環境を創り出す方法を示す。
これは高度で堅牢なマルチエージェントポリシーの学習につながります。
合併操作の成功率は63%から98%に劇的に改善した。
論文 参考訳(メタデータ) (2020-01-28T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。