論文の概要: Toward multi-target self-organizing pursuit in a partially observable
Markov game
- arxiv url: http://arxiv.org/abs/2206.12330v3
- Date: Wed, 19 Apr 2023 12:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 18:08:22.415813
- Title: Toward multi-target self-organizing pursuit in a partially observable
Markov game
- Title(参考訳): 部分的に観測可能なマルコフゲームにおける多目的自己組織化追求に向けて
- Authors: Lijun Sun, Yu-Cheng Chang, Chao Lyu, Ye Shi, Yuhui Shi, and Chin-Teng
Lin
- Abstract要約: 本研究では,探索・追従における暗黙的協調機能を改善するために,分散化されたマルチエージェントシステムのためのフレームワークを提案する。
我々は,大規模な分散化,部分的な観察,非コミュニケーションを特徴とする,部分的に観測可能なマルコフゲーム(POMG)として自己組織化システムをモデル化する。
提案した分散アルゴリズムは, ファジィ自己組織化協調共進化(FSC2)を利用して, マルチターゲットSOPにおける3つの課題を解決する。
- 参考スコア(独自算出の注目度): 34.22625222101752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multiple-target self-organizing pursuit (SOP) problem has wide
applications and has been considered a challenging self-organization game for
distributed systems, in which intelligent agents cooperatively pursue multiple
dynamic targets with partial observations. This work proposes a framework for
decentralized multi-agent systems to improve the implicit coordination
capabilities in search and pursuit. We model a self-organizing system as a
partially observable Markov game (POMG) featured by large-scale,
decentralization, partial observation, and noncommunication. The proposed
distributed algorithm: fuzzy self-organizing cooperative coevolution (FSC2) is
then leveraged to resolve the three challenges in multi-target SOP: distributed
self-organizing search (SOS), distributed task allocation, and distributed
single-target pursuit. FSC2 includes a coordinated multi-agent deep
reinforcement learning (MARL) method that enables homogeneous agents to learn
natural SOS patterns. Additionally, we propose a fuzzy-based distributed task
allocation method, which locally decomposes multi-target SOP into several
single-target pursuit problems. The cooperative coevolution principle is
employed to coordinate distributed pursuers for each single-target pursuit
problem. Therefore, the uncertainties of inherent partial observation and
distributed decision-making in the POMG can be alleviated. The experimental
results demonstrate that by decomposing the SOP task, FSC2 achieves superior
performance compared with other implicit coordination policies fully trained by
general MARL algorithms. The scalability of FSC2 is proved that up to 2048 FSC2
agents perform efficient multi-target SOP with almost 100 percent capture
rates. Empirical analyses and ablation studies verify the interpretability,
rationality, and effectiveness of component algorithms in FSC2.
- Abstract(参考訳): マルチターゲット自己組織化追尾(SOP)問題には幅広い応用があり、知的エージェントが協調して複数の動的ターゲットを部分的に観察する分散システムにおける挑戦的な自己組織化ゲームと考えられている。
本研究は,探索と追跡における暗黙の協調能力を改善するために,分散マルチエージェントシステムのためのフレームワークを提案する。
我々は,大規模,分散,部分的観測,非通信を特徴とする,部分観測可能なマルコフゲーム(pomg)として自己組織化システムをモデル化する。
提案した分散アルゴリズムは、ファジィ自己組織化協調共進化(FSC2)を利用して、分散自己組織化探索(SOS)、分散タスク割り当て、分散単一ターゲット探索の3つの課題を解決する。
FSC2は、一様エージェントが自然なSOSパターンを学習できる協調型マルチエージェント深部強化学習(MARL)法を含む。
さらに,複数ターゲットSOPを複数の単一ターゲット追従問題に分解するファジィ型分散タスク割り当て手法を提案する。
協調的共進化原理は、各単一ターゲット追従問題に対する分散トラッカーの協調に使用される。
したがって、POMGにおける固有の部分的観察と分散意思決定の不確実性は軽減できる。
実験結果から,SOPタスクを分解することにより,一般のMARLアルゴリズムで完全に訓練された他の暗黙の調整ポリシーと比較して,FSC2は優れた性能を発揮することが示された。
FSC2のスケーラビリティは、最大2048個のFSC2エージェントが100%の捕捉率で効率的なマルチターゲットSOPを実行することを証明している。
実証分析とアブレーション研究は、FSC2におけるコンポーネントアルゴリズムの解釈可能性、合理性、および有効性を検証する。
関連論文リスト
- Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Coding for Distributed Multi-Agent Reinforcement Learning [12.366967700730449]
ストラグラーは、様々なシステム障害が存在するため、分散学習システムで頻繁に発生する。
本稿では,ストラグラーの存在下でのMARLアルゴリズムの学習を高速化する分散学習フレームワークを提案する。
最大距離分離可能(MDS)コード、ランダムスパースコード、レプリケーションベースのコード、通常の低密度パリティチェック(LDPC)コードなど、さまざまなコーディングスキームも検討されている。
論文 参考訳(メタデータ) (2021-01-07T00:22:34Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文 参考訳(メタデータ) (2020-06-14T11:22:53Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。