Fugu-MT 論文翻訳(概要): Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning

論文の概要: Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.06274v2
Date: Mon, 5 Jun 2023 17:35:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 04:23:58.329911
Title: Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習におけるハイブリッド演習による集中訓練
Authors: Pedro P. Santos, Diogo S. Carvalho, Miguel Vasco, Alberto Sardinha, Pedro A. Santos, Ana Paiva, Francisco S. Melo
Abstract要約: マルチエージェント強化学習(MARL)におけるハイブリッド実行の導入 MARLは、エージェントが任意の通信レベルを持つ協調タスクを実行時に完了させることを目標とする新しいパラダイムである。我々は,自動回帰予測モデルを用いたMAROを集中的に訓練し,行方不明者の観察を推定する手法を提案する。
参考スコア（独自算出の注目度）: 7.163485179361718
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce hybrid execution in multi-agent reinforcement learning (MARL), a new paradigm in which agents aim to successfully complete cooperative tasks with arbitrary communication levels at execution time by taking advantage of information-sharing among the agents. Under hybrid execution, the communication level can range from a setting in which no communication is allowed between agents (fully decentralized), to a setting featuring full communication (fully centralized), but the agents do not know beforehand which communication level they will encounter at execution time. To formalize our setting, we define a new class of multi-agent partially observable Markov decision processes (POMDPs) that we name hybrid-POMDPs, which explicitly model a communication process between the agents. We contribute MARO, an approach that makes use of an auto-regressive predictive model, trained in a centralized manner, to estimate missing agents' observations at execution time. We evaluate MARO on standard scenarios and extensions of previous benchmarks tailored to emphasize the negative impact of partial observability in MARL. Experimental results show that our method consistently outperforms relevant baselines, allowing agents to act with faulty communication while successfully exploiting shared information.
Abstract（参考訳）: 本稿では,エージェント間の情報共有を生かして,任意のコミュニケーションレベルを持つ協調作業を実行時に達成することを目的とした,マルチエージェント強化学習(MARL)におけるハイブリッド実行を提案する。ハイブリッド実行下では、コミュニケーションレベルはエージェント間の通信を許可しない(完全に分散化)設定から、完全な通信を特徴とする(完全に集中化)設定まで様々であるが、エージェントは実行時にどの通信レベルに遭遇するかを事前に知らない。我々の設定を定式化するために、エージェント間の通信プロセスを明示的にモデル化するハイブリッドPOMDPと呼ばれるマルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)を新たに定義する。我々は,自動回帰予測モデルを用いて,集中的に訓練したMAROを用いて,実行時の行方不明者の観察を推定する手法を提案する。我々は、MARLにおける部分観測可能性の負の影響を強調するために、以前のベンチマークの標準シナリオと拡張についてMAROを評価する。実験の結果,提案手法はベースラインを一貫して上回っており,エージェントが情報共有をうまく活用しながら,通信の誤りを回避できることがわかった。

関連論文リスト

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文参考訳（メタデータ） (2025-03-03T05:18:50Z)
Networked Agents in the Dark: Team Value Learning under Partial Observability [3.8779763612314633]
ネットワークエージェントのための協調型マルチエージェント強化学習(MARL)手法を提案する。完全な状態情報や共同観測に依存する従来の手法とは対照的に、我々のエージェントは部分観測可能性の下で共有目的に到達する方法を学ぶ必要がある。トレーニング中、個々の報酬を収集し、ローカルコミュニケーションを通じてチームの価値関数を近似し、協調行動をもたらす。
論文参考訳（メタデータ） (2025-01-15T13:01:32Z)
Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文参考訳（メタデータ） (2024-11-01T05:56:51Z)
DCMAC: Demand-aware Customized Multi-Agent Communication via Upper Bound Training [9.068971933560416]
本稿では,アッパーバウンドトレーニングを用いて理想的なポリシを得る,要求対応のカスタマイズ型マルチエージェント通信プロトコルを提案する。実験結果から,DCMACは,制約のない,通信制約のないシナリオにおいて,ベースラインアルゴリズムを著しく上回ることがわかった。
論文参考訳（メタデータ） (2024-09-11T09:23:27Z)
Generalising Multi-Agent Cooperation through Task-Agnostic Communication [7.380444448047908]
協調型マルチロボット問題におけるMARL(Multi-agent reinforcement learning)の既存のコミュニケーション手法はほとんどタスク固有であり、各タスクごとに新しいコミュニケーション戦略を訓練する。与えられた環境内の任意のタスクに適用可能な通信戦略を導入することで、この非効率性に対処する。我々の目的は、可変数のエージェント観測から固定サイズの潜在マルコフ状態を学ぶことである。本手法は,コミュニケーション戦略を微調整することなく,新しいタスクへのシームレスな適応が可能であり,トレーニング中よりも多くのエージェントへのスケーリングを優雅にサポートし,環境におけるアウト・オブ・ディストリビューションイベントを検出する。
論文参考訳（メタデータ） (2024-03-11T14:20:13Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Multi-Agent Coordination via Multi-Level Communication [29.388570369796586]
シークエンシャル・コミュニケーション(SeqComm)という新しいマルチレベル通信方式を提案する。本稿では,新しいマルチレベル通信方式であるSeqCommを提案する。
論文参考訳（メタデータ） (2022-09-26T14:08:03Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文参考訳（メタデータ） (2022-05-25T08:35:00Z)
Coordinating Policies Among Multiple Agents via an Intelligent Communication Channel [81.39444892747512]
MARL(Multi-Agent Reinforcement Learning)では、エージェントが直接通信できる特別なチャンネルがしばしば導入される。本稿では,エージェントの集団的性能を向上させるために,エージェントが提供した信号の伝達と解釈を学習する,インテリジェントなファシリテータを通じてエージェントがコミュニケーションする手法を提案する。
論文参考訳（メタデータ） (2022-05-21T14:11:33Z)
A Decentralized Communication Framework based on Dual-Level Recurrence for Multi-Agent Reinforcement Learning [5.220940151628735]
マルチエージェントシステムのためのデュアルレベルリカレント通信フレームワークを提案する。第1の再発は通信シーケンスで発生し、エージェント間の通信データを送信するために使用される。第2の再発は、時系列に基づいて、各エージェントの履歴観測を組み合わせる。
論文参考訳（メタデータ） (2022-02-22T01:36:59Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文参考訳（メタデータ） (2020-03-19T16:51:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。