論文の概要: Learning to Share in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.08702v1
- Date: Thu, 16 Dec 2021 08:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:24:10.872070
- Title: Learning to Share in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における共有学習
- Authors: Yuxuan Yi, Ge Li, Yaowei Wang, Zongqing Lu
- Abstract要約: ネットワーク型マルチエージェント強化学習(MARL)の問題点について検討する。
人間の協調学習において,テキスト共有が重要な役割を担っているという事実に着想を得て,LToSを提案する。
各エージェントに対して、高レベルの政策は、近隣の人たちと報酬を共有してグローバルな目的を分解する方法を学習し、低レベルの政策は、近隣の高レベルの政策によって誘導される局所的な目標を最適化することを学ぶ。
- 参考スコア(独自算出の注目度): 33.462384381980065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of networked multi-agent reinforcement
learning (MARL), where a number of agents are deployed as a partially connected
network and each interacts only with nearby agents. Networked MARL requires all
agents make decision in a decentralized manner to optimize a global objective
with restricted communication between neighbors over the network. Inspired by
the fact that \textit{sharing} plays a key role in human's learning of
cooperation, we propose LToS, a hierarchically decentralized MARL framework
that enables agents to learn to dynamically share reward with neighbors so as
to encourage agents to cooperate on the global objective. For each agent, the
high-level policy learns how to share reward with neighbors to decompose the
global objective, while the low-level policy learns to optimize local objective
induced by the high-level policies in the neighborhood. The two policies form a
bi-level optimization and learn alternately. We empirically demonstrate that
LToS outperforms existing methods in both social dilemma and networked MARL
scenario.
- Abstract(参考訳): 本稿では,複数のエージェントが部分的に接続されたネットワークとして配置され,それぞれが近接エージェントとのみ相互作用するネットワーク型マルチエージェント強化学習(marl)の問題について検討する。
ネットワークMARLは、ネットワーク上の隣人との通信を制限することで、グローバルな目的を最適化するために、すべてのエージェントが分散的に決定する必要がある。
人類の協力学習において,「textit{ sharing}」が重要な役割を担っているという事実に触発されて,エージェントがグローバルな目的に協力するように,近隣者と報酬を動的に共有することのできる階層的な分散MARLフレームワークLToSを提案する。
各エージェントに対して、ハイレベルポリシーは、グローバル目標を分解するために隣人と報酬を共有する方法を学び、ローレベルポリシーは、近隣のハイレベルポリシーによって引き起こされるローカルな目標を最適化することを学ぶ。
2つのポリシーは二段階最適化を形成し、交互に学習する。
我々は、LToSが社会的ジレンマとネットワーク化されたMARLシナリオの両方において既存の手法より優れていることを実証的に実証した。
関連論文リスト
- ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization [11.620274237352026]
オフライン強化学習(RL)は、事前に収集されたデータセットから効果的なポリシーを学習する能力において、大きな注目を集めている。
MARLは、大きな結合状態-作用空間とマルチエージェントの振る舞いの複雑さにより、さらなる課題を提起する。
定常分布空間に正規化器を導入し、分布シフトをよりよく処理する。
論文 参考訳(メタデータ) (2024-10-02T18:56:10Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Global Convergence of Localized Policy Iteration in Networked
Multi-Agent Reinforcement Learning [25.747559058350557]
エージェントが与えられたネットワーク上で相互作用するマルチエージェント強化学習(MARL)問題について検討する。
エージェントの目標は、エントロピー規則化された長期報酬の平均を協調的に最大化することである。
次元の呪いを克服し,コミュニケーションを減らすために,ローカル情報のみを用いて,グローバルに近い最適政策を確実に学習するローカルポリシーイテレーション(LPI)を提案する。
論文 参考訳(メタデータ) (2022-11-30T15:58:00Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Local Advantage Networks for Cooperative Multi-Agent Reinforcement
Learning [1.1879716317856945]
本稿では,協調的部分観測環境のための新しいタイプの強化学習アルゴリズムを提案する。
我々は、各エージェントに対して、個別の利点関数を介して分散化されたベストレスポンスポリシーを学ぶために、デュエルアーキテクチャを使用します。
StarCraft IIマルチエージェントチャレンジベンチマークの評価は、LANが最先端のパフォーマンスに達することを示している。
論文 参考訳(メタデータ) (2021-12-23T10:55:33Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Competing Adaptive Networks [56.56653763124104]
適応エージェントのチーム間での分散競争のためのアルゴリズムを開発する。
本稿では,生成的対向ニューラルネットワークの分散学習への応用について述べる。
論文 参考訳(メタデータ) (2021-03-29T14:42:15Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。