論文の概要: Policy Evaluation in Decentralized POMDPs with Belief Sharing
- arxiv url: http://arxiv.org/abs/2302.04151v2
- Date: Tue, 16 May 2023 11:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:46:31.624378
- Title: Policy Evaluation in Decentralized POMDPs with Belief Sharing
- Title(参考訳): 信頼共有型分散型PMDPの政策評価
- Authors: Mert Kayaalp, Fatima Ghadieh, Ali H. Sayed
- Abstract要約: エージェントが直接環境状態を観察しないような協調的政策評価タスクについて検討する。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
- 参考スコア(独自算出の注目度): 39.550233049869036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most works on multi-agent reinforcement learning focus on scenarios where the
state of the environment is fully observable. In this work, we consider a
cooperative policy evaluation task in which agents are not assumed to observe
the environment state directly. Instead, agents can only have access to noisy
observations and to belief vectors. It is well-known that finding global
posterior distributions under multi-agent settings is generally NP-hard. As a
remedy, we propose a fully decentralized belief forming strategy that relies on
individual updates and on localized interactions over a communication network.
In addition to the exchange of the beliefs, agents exploit the communication
network by exchanging value function parameter estimates as well. We
analytically show that the proposed strategy allows information to diffuse over
the network, which in turn allows the agents' parameters to have a bounded
difference with a centralized baseline. A multi-sensor target tracking
application is considered in the simulations.
- Abstract(参考訳): 多くの場合、マルチエージェント強化学習は環境の状態が完全に観察可能なシナリオに焦点を当てている。
本研究は,エージェントが直接環境状態を観察しないことを前提とした協調政策評価タスクについて検討する。
その代わり、エージェントはノイズの観測や信念ベクトルへのアクセスしかできない。
マルチエージェント環境下でのグローバル後方分布の発見は一般にnpハードであることが知られている。
本稿では,コミュニケーションネットワーク上での個別更新と局所的インタラクションに依存する,完全に分散化された信念形成戦略を提案する。
信念の交換に加えて、エージェントは価値関数パラメータの見積もりを交換することで通信ネットワークを利用する。
本稿では,提案手法がネットワーク上で情報拡散を可能にすることを解析的に示し,エージェントのパラメータが集中ベースラインと有界な差を持つことを示す。
シミュレーションでは,マルチセンサ目標追跡アプリケーションについて検討する。
関連論文リスト
- Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation [59.01527054553122]
分散エージェントは、経験的システムの単一かつ非エポゾディックな実行から平均フィールドゲームにおける平衡を学ぶことができる。
既存の設定に関数近似を導入し,Munchausen Online Mirror Descent 方式で描画する。
また, エージェントが局所的な周辺地域に基づいて, グローバルな経験分布を推定できる新しいアルゴリズムも提供する。
論文 参考訳(メタデータ) (2024-08-21T13:32:46Z) - Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity [44.2308932471393]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - Decentralized Multi-agent Filtering [12.02857497237958]
本稿では、離散状態空間におけるマルチエージェントローカライゼーションアプリケーションに対する分散通信の導入に伴う考察について述べる。
我々は、欲求的信念共有のステップを付加することにより、離散状態推定の基本的な確率的ツールであるベイズフィルタのオリジナル定式化を拡張した。
論文 参考訳(メタデータ) (2023-01-21T02:41:32Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Multi-Agent MDP Homomorphic Networks [100.74260120972863]
協調型マルチエージェントシステムでは、エージェントの異なる構成とそれらの局所的な観察の間に複雑な対称性が生じる。
単エージェント強化学習における既存の対称性の研究は、完全に集中した環境にのみ一般化できる。
本稿では,ローカル情報のみを用いた分散実行が可能なネットワークのクラスであるマルチエージェントMDPホモモルフィックネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-09T07:46:25Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。