論文の概要: Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.01098v3
- Date: Mon, 17 Aug 2020 03:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:55:48.913125
- Title: Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning
- Title(参考訳): 部分観測可能マルチエージェント強化学習における情報状態埋め込み
- Authors: Weichao Mao, Kaiqing Zhang, Erik Miehling, Tamer Ba\c{s}ar
- Abstract要約: エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。
提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
- 参考スコア(独自算出の注目度): 19.617644643147948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) under partial observability has
long been considered challenging, primarily due to the requirement for each
agent to maintain a belief over all other agents' local histories -- a domain
that generally grows exponentially over time. In this work, we investigate a
partially observable MARL problem in which agents are cooperative. To enable
the development of tractable algorithms, we introduce the concept of an
information state embedding that serves to compress agents' histories. We
quantify how the compression error influences the resulting value functions for
decentralized control. Furthermore, we propose an instance of the embedding
based on recurrent neural networks (RNNs). The embedding is then used as an
approximate information state, and can be fed into any MARL algorithm. The
proposed embed-then-learn pipeline opens the black-box of existing (partially
observable) MARL algorithms, allowing us to establish some theoretical
guarantees (error bounds of value functions) while still achieving competitive
performance with many end-to-end approaches.
- Abstract(参考訳): 部分観測可能性下でのマルチエージェント強化学習(MARL)は、主に各エージェントが他のエージェントの局所的履歴(一般的に時間とともに指数関数的に成長する領域)に対する信念を維持する必要があるため、長い間難しいと考えられてきた。
本研究では,エージェントが協調する部分観測可能なmarl問題について検討する。
移動可能なアルゴリズムの開発を可能にするために,エージェントの履歴圧縮に役立つ情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数に与える影響を定量化する。
さらに,リカレントニューラルネットワーク(recurrent neural networks:rnns)に基づく組込みの例を提案する。
埋め込みは近似情報状態として使用され、任意のMARLアルゴリズムに入力することができる。
提案されているembed-then-learnパイプラインは、既存の(部分的に可観測な)marlアルゴリズムのブラックボックスを開き、いくつかの理論的保証(値関数のエラー境界)を確立できると同時に、多くのエンドツーエンドアプローチで競争力の高いパフォーマンスを実現します。
関連論文リスト
- Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z) - An Algorithm For Adversary Aware Decentralized Networked MARL [0.0]
既存のMARLアルゴリズムのコンセンサス更新に脆弱性を導入する。
我々は,非敵エージェントが敵の存在下で合意に達することを可能にするアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-05-09T16:02:31Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - Cooperative Multi-Agent Reinforcement Learning Based Distributed Dynamic
Spectrum Access in Cognitive Radio Networks [46.723006378363785]
ダイナミックスペクトルアクセス(DSA)は、非効率的なスペクトル利用の問題を改善するための、有望なパラダイムである。
本稿では,一般的な認知無線ネットワークにおけるマルチユーザに対する分散DSA問題について検討する。
我々は、各認知ユーザに対する状態の部分的観測可能性に対処するために、DRQN(Deep Recurrent Q-network)を用いている。
論文 参考訳(メタデータ) (2021-06-17T06:52:21Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - R-MADDPG for Partially Observable Environments and Limited Communication [42.771013165298186]
本稿では, 部分観測可能な集合点と限られた通信条件下でのマルチエージェント協調処理のための, R-MADDPG (Deep Recurrent Multiagent-critic framework) を提案する。
得られたフレームワークは、欠落した観察の共有、リソース制限の処理、エージェント間の異なる通信パターンの開発のための時間依存性を学習する。
論文 参考訳(メタデータ) (2020-02-16T21:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。