論文の概要: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- arxiv url: http://arxiv.org/abs/2205.14953v1
- Date: Mon, 30 May 2022 09:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:45:45.733543
- Title: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- Title(参考訳): マルチエージェント強化学習はシーケンスモデリング問題である
- Authors: Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen,
Jun Wang and Yaodong Yang
- Abstract要約: マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
- 参考スコア(独自算出の注目度): 33.679936867612525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large sequence model (SM) such as GPT series and BERT has displayed
outstanding performance and generalization capabilities on vision, language,
and recently reinforcement learning tasks. A natural follow-up question is how
to abstract multi-agent decision making into an SM problem and benefit from the
prosperous development of SMs. In this paper, we introduce a novel architecture
named Multi-Agent Transformer (MAT) that effectively casts cooperative
multi-agent reinforcement learning (MARL) into SM problems wherein the task is
to map agents' observation sequence to agents' optimal action sequence. Our
goal is to build the bridge between MARL and SMs so that the modeling power of
modern sequence models can be unleashed for MARL. Central to our MAT is an
encoder-decoder architecture which leverages the multi-agent advantage
decomposition theorem to transform the joint policy search problem into a
sequential decision making process; this renders only linear time complexity
for multi-agent problems and, most importantly, endows MAT with monotonic
performance improvement guarantee. Unlike prior arts such as Decision
Transformer fit only pre-collected offline data, MAT is trained by online
trials and errors from the environment in an on-policy fashion. To validate
MAT, we conduct extensive experiments on StarCraftII, Multi-Agent MuJoCo,
Dexterous Hands Manipulation, and Google Research Football benchmarks. Results
demonstrate that MAT achieves superior performance and data efficiency compared
to strong baselines including MAPPO and HAPPO. Furthermore, we demonstrate that
MAT is an excellent few-short learner on unseen tasks regardless of changes in
the number of agents. See our project page at
https://sites.google.com/view/multi-agent-transformer.
- Abstract(参考訳): GPTシリーズやBERTのような大規模シーケンスモデル(SM)は、視覚、言語、最近では強化学習タスクにおいて優れた性能と一般化能力を示している。
自然なフォローアップ問題は、マルチエージェントの意思決定をSM問題に抽象化し、SMの繁栄による利益を得る方法である。
本稿では,MARL(Multi-Agent Transformer)と呼ばれる新しいアーキテクチャを導入し,協調型マルチエージェント強化学習(MARL)をSM問題に効果的に適用し,エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングする。
我々のゴールは、MARL と SM のブリッジを構築し、最新のシーケンスモデルのモデリング能力を MARL のために解き放つことである。
私たちのマットの中心にあるエンコーダ・デコーダアーキテクチャは、マルチエージェントのアドバンテージ分解定理を利用して、ジョイントポリシー探索問題をシーケンシャルな意思決定プロセスに変換するものです。
事前収集されたオフラインデータのみに適合する決定トランスフォーマーのような先行技術とは異なり、matはオンライントライアルとオンポリシーな方法で環境からのエラーによって訓練される。
MATを検証するために,StarCraftII,Multi-Agent MuJoCo,Dexterous Hands Manipulation,Google Research Footballベンチマークの広範な実験を行った。
その結果,MATはMAPPOやHAPPOといった強力なベースラインと比較して,優れた性能とデータ効率を実現することがわかった。
さらに, エージェント数の変化にかかわらず, MATは未確認タスクにおいて, 極めて少ない学習者であることを示す。
プロジェクトページはhttps://sites.google.com/view/multi-agent-transformerを参照。
関連論文リスト
- Towards Robust Multi-Modal Reasoning via Model Selection [8.37038849337004]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [82.59166059130702]
拡散モデル(DM)は,最近オフライン強化学習を含む様々なシナリオで大きな成功を収めている。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - MMTM: Multi-Tasking Multi-Decoder Transformer for Math Word Problems [0.0]
本稿では,事前学習時にマルチタスクとマルチデコーダを利用する新しいモデルMMTMを提案する。
MMTMモデルはより優れた数学的推論能力と一般化可能性を実現する。
我々は,Seq2Seq,GTS,Graph2Treeのアートベースラインモデルの最高の状態を,対向的課題データセットSVAMPに対して19.4%の相対的な改善で証明する。
論文 参考訳(メタデータ) (2022-06-02T19:48:36Z) - Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal
Difference and Successor Representation [32.80370188601152]
本稿では,マルチエージェント適応カルマン時間差分(MAK-TD)フレームワークとその継承表現に基づく変種(MAK-SR)を提案する。
提案するMAK-TD/SRフレームワークは,高次元マルチエージェント環境に関連付けられたアクション空間の連続的な性質を考察する。
論文 参考訳(メタデータ) (2021-12-30T18:21:53Z) - Offline Pre-trained Multi-Agent Decision Transformer: One Big Sequence
Model Conquers All StarCraftII Tasks [43.588686040547486]
オンラインの微調整によるオフライン事前トレーニングは研究されておらず、オフラインMARL研究のためのデータセットやベンチマークも利用可能ではない。
オフライン学習に有効なマルチエージェント決定変換器(MADT)のアーキテクチャを提案する。
StarCraft IIのオフラインデータセットで評価すると、MADTは最先端のオフラインRLベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-06T08:11:05Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [5.333582981327498]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。