論文の概要: Learning to Advise and Learning from Advice in Cooperative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.11163v1
- Date: Mon, 23 May 2022 09:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 20:22:34.496402
- Title: Learning to Advise and Learning from Advice in Cooperative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習におけるアドバイスとアドバイスの学習
- Authors: Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang
- Abstract要約: マルチエージェント強化学習(MARL)を改善するため,LALA(Learning toAdvise and Learning from Advice)を提案する。
アドバイザは、タスク指向の目的関数を備えた双対時間畳み込みニューラルネットワークを用いて、空間的および時間的領域の意思決定情報とコーディネート決定を集約することを学ぶ。
実験結果から,学習効率と調整能力の両面で,LALAがベースラインアプローチよりも優れていることが示唆された。
- 参考スコア(独自算出の注目度): 10.691232629333413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to coordinate is a daunting problem in multi-agent reinforcement
learning (MARL). Previous works have explored it from many facets, including
cognition between agents, credit assignment, communication, expert
demonstration, etc. However, less attention were paid to agents' decision
structure and the hierarchy of coordination. In this paper, we explore the
spatiotemporal structure of agents' decisions and consider the hierarchy of
coordination from the perspective of multilevel emergence dynamics, based on
which a novel approach, Learning to Advise and Learning from Advice (LALA), is
proposed to improve MARL. Specifically, by distinguishing the hierarchy of
coordination, we propose to enhance decision coordination at meso level with an
advisor and leverage a policy discriminator to advise agents' learning at micro
level. The advisor learns to aggregate decision information in both spatial and
temporal domains and generates coordinated decisions by employing a
spatiotemporal dual graph convolutional neural network with a task-oriented
objective function. Each agent learns from the advice via a policy generative
adversarial learning method where a discriminator distinguishes between the
policies of the agent and the advisor and boosts both of them based on its
judgement. Experimental results indicate the advantage of LALA over baseline
approaches in terms of both learning efficiency and coordination capability.
Coordination mechanism is investigated from the perspective of multilevel
emergence dynamics and mutual information point of view, which provides a novel
perspective and method to analyze and improve MARL algorithms.
- Abstract(参考訳): 協調学習はマルチエージェント強化学習(MARL)において困難な問題である。
これまでの研究では、エージェント間の認識、クレジットの割り当て、コミュニケーション、エキスパートのデモンストレーションなど、多くの面から調査してきた。
しかし、エージェントの決定構造や調整の階層にはあまり注目されなかった。
本稿では,エージェントの意思決定の時空間構造を考察し,MARLを改善するための新たなアプローチであるLALA(Learning to Advise and Learning from Advice)を提案する。
具体的には,コーディネーションの階層を区別することで,mesoレベルでの意思決定コーディネーションをアドバイザリで強化し,政策判別器を活用し,エージェントのマイクロレベルでの学習を助言することを提案する。
アドバイザは、時間領域と時間領域の両方で意思決定情報を集約し、タスク指向の目的関数を持つ時空間双対グラフ畳み込みニューラルネットワークを用いて協調決定を生成する。
各エージェントは、識別者がエージェントとアドバイザーのポリシーを区別し、その判断に基づいて両者を増強するポリシージェネレーティブ・アドバーサリー・ラーニング(policy generative adversarial learning)手法を介してアドバイスから学習する。
実験の結果,学習効率と調整能力の両面で,LALAがベースラインアプローチよりも優れていることが示された。
コーディネーション機構は,MARLアルゴリズムを解析・改善するための新しい視点と手法を提供する多段階の出現力学と相互情報の観点から検討される。
関連論文リスト
- Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Foundations of Reinforcement Learning and Interactive Decision Making [81.76863968810423]
本稿では,頻度主義的アプローチとベイズ的アプローチを用いた探索・探索ジレンマに対処するための統一的な枠組みを提案する。
ニューラルネットワークのような近似とフレキシブルなモデルクラスを機能させるために特別な注意が払われる。
論文 参考訳(メタデータ) (2023-12-27T21:58:45Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Evaluating Multi-Agent Coordination Abilities in Large Language Models [28.352480978451865]
大きな言語モデル(LLM)は、人間のような方法で言語を理解し、生成し、解釈する顕著な能力を持っている。
各種調整シナリオにおける LLM を用いたエージェントの有効性の構築と評価を行う。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - A Variational Approach to Mutual Information-Based Coordination for
Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。
導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-01T12:21:30Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Curriculum-Driven Multi-Agent Learning and the Role of Implicit
Communication in Teamwork [24.92668968807012]
難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。
我々は、創発的な暗黙のコミュニケーションが、優れた調整レベルを実現する上で大きな役割を果たすと主張している。
論文 参考訳(メタデータ) (2021-06-21T14:54:07Z) - Context-Aware Sparse Deep Coordination Graphs [20.582393720212547]
エージェント間の協調力学に適応するスパースコーディネーショングラフの学習は、協調型マルチエージェント学習における長年の問題である。
本稿では、動的トポロジを学習し、それらを新しいマルチエージェントコーディネート(MACO)ベンチマークで評価するための値ベースおよび観測ベースのスキームを提案する。
問題の種類ごとの学習手法の個々の利点と全体的な性能を解析することにより、実用差関数の分散を利用したコンテキスト対応のスパース調整トポロジの学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-05T12:59:03Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in
Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。
我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。
我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文 参考訳(メタデータ) (2020-06-14T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。