論文の概要: Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.06274v1
- Date: Wed, 12 Oct 2022 14:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:22:23.619616
- Title: Centralized Training with Hybrid Execution in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習におけるハイブリッド演習による集中訓練
- Authors: Pedro P. Santos, Diogo S. Carvalho, Miguel Vasco, Alberto Sardinha,
Pedro A. Santos, Ana Paiva, Francisco S. Melo
- Abstract要約: マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入
マルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)の新しいクラスを定義する。
我々は,自己回帰予測モデルを用いて,行方不明者の観察を推定する手法MAROと,ドロップアウトに基づくRLトレーニングスキームをコントリビュートする。
- 参考スコア(独自算出の注目度): 7.163485179361718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce hybrid execution in multi-agent reinforcement learning (MARL), a
new paradigm in which agents aim to successfully perform cooperative tasks with
any communication level at execution time by taking advantage of
information-sharing among the agents. Under hybrid execution, the communication
level can range from a setting in which no communication is allowed between
agents (fully decentralized), to a setting featuring full communication (fully
centralized). To formalize our setting, we define a new class of multi-agent
partially observable Markov decision processes (POMDPs) that we name
hybrid-POMDPs, which explicitly models a communication process between the
agents. We contribute MARO, an approach that combines an autoregressive
predictive model to estimate missing agents' observations, and a dropout-based
RL training scheme that simulates different communication levels during the
centralized training phase. We evaluate MARO on standard scenarios and
extensions of previous benchmarks tailored to emphasize the negative impact of
partial observability in MARL. Experimental results show that our method
consistently outperforms baselines, allowing agents to act with faulty
communication while successfully exploiting shared information.
- Abstract(参考訳): エージェント間の情報共有を生かして,エージェントが任意のコミュニケーションレベルで協調作業を行うための新しいパラダイムであるマルチエージェント強化学習(MARL)にハイブリッド実行を導入する。
ハイブリッド実行では、コミュニケーションレベルはエージェント間の通信を許可しない(完全に分散化)設定から、完全な通信を特徴とする(完全に集中化)設定まで様々である。
我々の設定を形式化するために、エージェント間の通信プロセスを明示的にモデル化するハイブリッドPOMDPと呼ばれるマルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)を新たに定義する。
我々は,エージェントの観測値の推定に自己回帰的予測モデルを組み合わせたアプローチであるmaroと,集中型トレーニングフェーズで異なるコミュニケーションレベルをシミュレートするドロップアウトベースのrlトレーニングスキームを提案する。
我々は、MARLにおける部分観測可能性の負の影響を強調するために、以前のベンチマークの標準シナリオと拡張についてMAROを評価する。
実験の結果,提案手法はベースラインを一貫して上回っており,エージェントが情報共有をうまく活用しながら,誤った通信で行動できることがわかった。
関連論文リスト
- Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training [9.068971933560416]
本稿では,アッパーバウンドトレーニングを用いて理想的なポリシを得る,要求対応のカスタマイズ型マルチエージェント通信プロトコルを提案する。
実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-11T09:23:27Z) - Generalising Multi-Agent Cooperation through Task-Agnostic Communication [7.380444448047908]
協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。
与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。
我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。
本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境におけるアウト・オブ・ディストリビューションイベントを検出する。
論文 参考訳(メタデータ) (2024-03-11T14:20:13Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Multi-Agent Coordination via Multi-Level Communication [29.388570369796586]
シークエンシャル・コミュニケーション(SeqComm)という新しいマルチレベル通信方式を提案する。
本稿では,新しいマルチレベル通信方式であるSeqCommを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:08:03Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Coordinating Policies Among Multiple Agents via an Intelligent
Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。
本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T14:11:33Z) - A Decentralized Communication Framework based on Dual-Level Recurrence
for Multi-Agent Reinforcement Learning [5.220940151628735]
マルチエージェントシステムのためのデュアルレベルリカレント通信フレームワークを提案する。
第1の再発は通信シーケンスで発生し、エージェント間の通信データを送信するために使用される。
第2の再発は、時系列に基づいて、各エージェントの履歴観測を組み合わせる。
論文 参考訳(メタデータ) (2022-02-22T01:36:59Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。