論文の概要: Policy Evaluation in Decentralized POMDPs with Belief Sharing
- arxiv url: http://arxiv.org/abs/2302.04151v2
- Date: Tue, 16 May 2023 11:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:46:31.624378
- Title: Policy Evaluation in Decentralized POMDPs with Belief Sharing
- Title(参考訳): 信頼共有型分散型PMDPの政策評価
- Authors: Mert Kayaalp, Fatima Ghadieh, Ali H. Sayed
- Abstract要約: エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
- 参考スコア(独自算出の注目度): 39.550233049869036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most works on multi-agent reinforcement learning focus on scenarios where the
state of the environment is fully observable. In this work, we consider a
cooperative policy evaluation task in which agents are not assumed to observe
the environment state directly. Instead, agents can only have access to noisy
observations and to belief vectors. It is well-known that finding global
posterior distributions under multi-agent settings is generally NP-hard. As a
remedy, we propose a fully decentralized belief forming strategy that relies on
individual updates and on localized interactions over a communication network.
In addition to the exchange of the beliefs, agents exploit the communication
network by exchanging value function parameter estimates as well. We
analytically show that the proposed strategy allows information to diffuse over
the network, which in turn allows the agents' parameters to have a bounded
difference with a centralized baseline. A multi-sensor target tracking
application is considered in the simulations.
- Abstract(参考訳): 多くの場合、マルチエージェント強化学習は環境の状態が完全に観察可能なシナリオに焦点を当てている。
本研究は,エージェントが直接環境状態を観察しないことを前提とした協調政策評価タスクについて検討する。
その代わり、エージェントはノイズの観測や信念ベクトルへのアクセスしかできない。
マルチエージェント環境下でのグローバル後方分布の発見は一般にnpハードであることが知られている。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
信念の交換に加えて、エージェントは価値関数パラメータの見積もりを交換することで通信ネットワークを利用する。
本稿では,提案手法がネットワーク上で情報拡散を可能にすることを解析的に示し,エージェントのパラメータが集中ベースラインと有界な差を持つことを示す。
シミュレーションでは,マルチセンサ目標追跡アプリケーションについて検討する。
関連論文リスト
- Zeroth-order Asynchronous Learning with Bounded Delays with a Use-case
in Resource Allocation in Communication Networks [12.216015676346032]
本稿では、エージェントが個別のタスクを持ちながら、統一されたミッションに向けて協力するシナリオに焦点を当てる。
この文脈において、エージェントの目的は、局所的な報酬関数の集合に基づいて、それらの局所パラメータを最適化することである。
本稿では,理論収束解析を行い,提案手法の収束率を確立する。
論文 参考訳(メタデータ) (2023-11-08T11:12:27Z) - Federated Natural Policy Gradient Methods for Multi-task Reinforcement
Learning [49.65958529941962]
フェデレート強化学習(RL)は、ローカルデータトラジェクトリを共有することなく、複数の分散エージェントの協調的な意思決定を可能にする。
本研究では,各エージェントがそれぞれのタスクに対応する個別の報酬関数を持つマルチタスク設定について考察する。
我々は、分散された方法で全てのエージェントの割引された全報酬の総和を最大化する、世界的な最適政策を学習する。
論文 参考訳(メタデータ) (2023-11-01T00:15:18Z) - Federated Temporal Difference Learning with Linear Function
Approximation under Environmental Heterogeneity [33.21929593049226]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - Decentralized Multi-agent Filtering [12.02857497237958]
本稿では、離散状態空間におけるマルチエージェントローカライゼーションアプリケーションに対する分散通信の導入に伴う考察について述べる。
我々は、欲求的信念共有のステップを付加することにより、離散状態推定の基本的な確率的ツールであるベイズフィルタのオリジナル定式化を拡張した。
論文 参考訳(メタデータ) (2023-01-21T02:41:32Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。