Fugu-MT 論文翻訳(概要): Learning to Advise and Learning from Advice in Cooperative Multi-Agent Reinforcement Learning

論文の概要: Learning to Advise and Learning from Advice in Cooperative Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.11163v1
Date: Mon, 23 May 2022 09:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-24 20:22:34.496402
Title: Learning to Advise and Learning from Advice in Cooperative Multi-Agent Reinforcement Learning
Title（参考訳）: 協調型マルチエージェント強化学習におけるアドバイスとアドバイスの学習
Authors: Yue Jin, Shuangqing Wei, Jian Yuan, Xudong Zhang
Abstract要約: マルチエージェント強化学習(MARL)を改善するため,LALA(Learning toAdvise and Learning from Advice)を提案する。アドバイザは、タスク指向の目的関数を備えた双対時間畳み込みニューラルネットワークを用いて、空間的および時間的領域の意思決定情報とコーディネート決定を集約することを学ぶ。実験結果から,学習効率と調整能力の両面で,LALAがベースラインアプローチよりも優れていることが示唆された。
参考スコア（独自算出の注目度）: 10.691232629333413
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning to coordinate is a daunting problem in multi-agent reinforcement learning (MARL). Previous works have explored it from many facets, including cognition between agents, credit assignment, communication, expert demonstration, etc. However, less attention were paid to agents' decision structure and the hierarchy of coordination. In this paper, we explore the spatiotemporal structure of agents' decisions and consider the hierarchy of coordination from the perspective of multilevel emergence dynamics, based on which a novel approach, Learning to Advise and Learning from Advice (LALA), is proposed to improve MARL. Specifically, by distinguishing the hierarchy of coordination, we propose to enhance decision coordination at meso level with an advisor and leverage a policy discriminator to advise agents' learning at micro level. The advisor learns to aggregate decision information in both spatial and temporal domains and generates coordinated decisions by employing a spatiotemporal dual graph convolutional neural network with a task-oriented objective function. Each agent learns from the advice via a policy generative adversarial learning method where a discriminator distinguishes between the policies of the agent and the advisor and boosts both of them based on its judgement. Experimental results indicate the advantage of LALA over baseline approaches in terms of both learning efficiency and coordination capability. Coordination mechanism is investigated from the perspective of multilevel emergence dynamics and mutual information point of view, which provides a novel perspective and method to analyze and improve MARL algorithms.
Abstract（参考訳）: 協調学習はマルチエージェント強化学習(MARL)において困難な問題である。これまでの研究では、エージェント間の認識、クレジットの割り当て、コミュニケーション、エキスパートのデモンストレーションなど、多くの面から調査してきた。しかし、エージェントの決定構造や調整の階層にはあまり注目されなかった。本稿では,エージェントの意思決定の時空間構造を考察し,MARLを改善するための新たなアプローチであるLALA(Learning to Advise and Learning from Advice)を提案する。具体的には,コーディネーションの階層を区別することで,mesoレベルでの意思決定コーディネーションをアドバイザリで強化し,政策判別器を活用し,エージェントのマイクロレベルでの学習を助言することを提案する。アドバイザは、時間領域と時間領域の両方で意思決定情報を集約し、タスク指向の目的関数を持つ時空間双対グラフ畳み込みニューラルネットワークを用いて協調決定を生成する。各エージェントは、識別者がエージェントとアドバイザーのポリシーを区別し、その判断に基づいて両者を増強するポリシージェネレーティブ・アドバーサリー・ラーニング(policy generative adversarial learning)手法を介してアドバイスから学習する。実験の結果,学習効率と調整能力の両面で,LALAがベースラインアプローチよりも優れていることが示された。コーディネーション機構は,MARLアルゴリズムを解析・改善するための新しい視点と手法を提供する多段階の出現力学と相互情報の観点から検討される。

関連論文リスト

A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
Contextual Knowledge Sharing in Multi-Agent Reinforcement Learning with Decentralized Communication and Coordination [0.9776703963093367]
マルチエージェント強化学習(Dec-MARL)は、動的環境における複雑なタスクに対処するための重要なアプローチとして登場した。本稿では,エージェントの知識共有プロセスに目標認識とタイムアウェアネスを取り入れ,ピアツーピアコミュニケーションとコーディネーションを統合した新しいDec-MARLフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-26T22:49:50Z)
Tacit Learning with Adaptive Information Selection for Cooperative Multi-Agent Reinforcement Learning [13.918498667158119]
本稿では,情報選択と暗黙学習に基づく新しい協調型MARLフレームワークを提案する。我々はゲーティングと選択機構を統合し、エージェントが環境変化に基づいて情報を適応的にフィルタリングできるようにする。人気のあるMARLベンチマークの実験により、我々のフレームワークは最先端のアルゴリズムとシームレスに統合できることが示された。
論文参考訳（メタデータ） (2024-12-20T07:55:59Z)
Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文参考訳（メタデータ） (2024-10-24T10:48:42Z)
Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks [17.914928652949314]
階層型合意に基づくマルチエージェント強化学習(HC-MARL)フレームワークを導入し,その限界に対処する。 HC-MARLは、エージェント間のグローバルコンセンサスを促進するために対照的な学習を採用し、直接のコミュニケーションなしに協調行動を可能にする。様々なタスクの動的な要求を満たすために、コンセンサスを複数の層に分割し、短期的および長期的考慮を包含する。
論文参考訳（メタデータ） (2024-07-11T03:55:55Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文参考訳（メタデータ） (2023-03-24T15:12:28Z)
A Variational Approach to Mutual Information-Based Coordination for Multi-Agent Reinforcement Learning [17.893310647034188]
マルチエージェント強化学習のための新しい相互情報フレームワークを提案する。導出された下界を最大化するためにポリシーを適用することで,多エージェントアクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクタ-アクティベートアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-01T12:21:30Z)
RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。 RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文参考訳（メタデータ） (2022-06-02T03:39:27Z)
Curriculum-Driven Multi-Agent Learning and the Role of Implicit Communication in Teamwork [24.92668968807012]
難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。我々は、創発的な暗黙のコミュニケーションが、優れた調整レベルを実現する上で大きな役割を果たすと主張している。
論文参考訳（メタデータ） (2021-06-21T14:54:07Z)
Context-Aware Sparse Deep Coordination Graphs [20.582393720212547]
エージェント間の協調力学に適応するスパースコーディネーショングラフの学習は、協調型マルチエージェント学習における長年の問題である。本稿では、動的トポロジを学習し、それらを新しいマルチエージェントコーディネート(MACO)ベンチマークで評価するための値ベースおよび観測ベースのスキームを提案する。問題の種類ごとの学習手法の個々の利点と全体的な性能を解析することにより、実用差関数の分散を利用したコンテキスト対応のスパース調整トポロジの学習手法を提案する。
論文参考訳（メタデータ） (2021-06-05T12:59:03Z)
UneVEn: Universal Value Exploration for Multi-Agent Reinforcement Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。 UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文参考訳（メタデータ） (2020-10-06T19:08:47Z)
Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in Cooperative Tasks [11.480994804659908]
マルチエージェント深部強化学習(MARL)は、一般的に使われている評価課題や基準の欠如に悩まされている。我々は,MARLアルゴリズムの3つのクラスを体系的に評価し,比較する。我々の実験は、異なる学習課題におけるアルゴリズムの期待性能の基準として機能する。
論文参考訳（メタデータ） (2020-06-14T11:22:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。