論文の概要: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- arxiv url: http://arxiv.org/abs/2205.14953v1
- Date: Mon, 30 May 2022 09:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 18:45:45.733543
- Title: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
- Title(参考訳): マルチエージェント強化学習はシーケンスモデリング問題である
- Authors: Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen,
Jun Wang and Yaodong Yang
- Abstract要約: マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
- 参考スコア(独自算出の注目度): 33.679936867612525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large sequence model (SM) such as GPT series and BERT has displayed
outstanding performance and generalization capabilities on vision, language,
and recently reinforcement learning tasks. A natural follow-up question is how
to abstract multi-agent decision making into an SM problem and benefit from the
prosperous development of SMs. In this paper, we introduce a novel architecture
named Multi-Agent Transformer (MAT) that effectively casts cooperative
multi-agent reinforcement learning (MARL) into SM problems wherein the task is
to map agents' observation sequence to agents' optimal action sequence. Our
goal is to build the bridge between MARL and SMs so that the modeling power of
modern sequence models can be unleashed for MARL. Central to our MAT is an
encoder-decoder architecture which leverages the multi-agent advantage
decomposition theorem to transform the joint policy search problem into a
sequential decision making process; this renders only linear time complexity
for multi-agent problems and, most importantly, endows MAT with monotonic
performance improvement guarantee. Unlike prior arts such as Decision
Transformer fit only pre-collected offline data, MAT is trained by online
trials and errors from the environment in an on-policy fashion. To validate
MAT, we conduct extensive experiments on StarCraftII, Multi-Agent MuJoCo,
Dexterous Hands Manipulation, and Google Research Football benchmarks. Results
demonstrate that MAT achieves superior performance and data efficiency compared
to strong baselines including MAPPO and HAPPO. Furthermore, we demonstrate that
MAT is an excellent few-short learner on unseen tasks regardless of changes in
the number of agents. See our project page at
https://sites.google.com/view/multi-agent-transformer.
- Abstract(参考訳): GPTシリーズやBERTのような大規模シーケンスモデル(SM)は、視覚、言語、最近では強化学習タスクにおいて優れた性能と一般化能力を示している。
自然なフォローアップ問題は、マルチエージェントの意思決定をSM問題に抽象化し、SMの繁栄による利益を得る方法である。
本稿では,MARL(Multi-Agent Transformer)と呼ばれる新しいアーキテクチャを導入し,協調型マルチエージェント強化学習(MARL)をSM問題に効果的に適用し,エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングする。
我々のゴールは、MARL と SM のブリッジを構築し、最新のシーケンスモデルのモデリング能力を MARL のために解き放つことである。
私たちのマットの中心にあるエンコーダ・デコーダアーキテクチャは、マルチエージェントのアドバンテージ分解定理を利用して、ジョイントポリシー探索問題をシーケンシャルな意思決定プロセスに変換するものです。
事前収集されたオフラインデータのみに適合する決定トランスフォーマーのような先行技術とは異なり、matはオンライントライアルとオンポリシーな方法で環境からのエラーによって訓練される。
MATを検証するために,StarCraftII,Multi-Agent MuJoCo,Dexterous Hands Manipulation,Google Research Footballベンチマークの広範な実験を行った。
その結果,MATはMAPPOやHAPPOといった強力なベースラインと比較して,優れた性能とデータ効率を実現することがわかった。
さらに, エージェント数の変化にかかわらず, MATは未確認タスクにおいて, 極めて少ない学習者であることを示す。
プロジェクトページはhttps://sites.google.com/view/multi-agent-transformerを参照。
関連論文リスト
- Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。
Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。
Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-11-07T06:36:19Z) - Multi-Agent Reinforcement Learning with Selective State-Space Models [3.8177843038388892]
状態空間モデル(SSM)はその計算効率のために注目されている。
本研究では,MARL(Multi-Agent Reinforcement Learning)における最近のSSMであるMambaの使用について検討する。
我々は、標準および双方向のMambaブロックと、新しい"クロスアテンション"Mambaブロックを組み込んだMATの修正版を紹介する。
論文 参考訳(メタデータ) (2024-10-25T08:32:21Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。
単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。
我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文 参考訳(メタデータ) (2021-11-22T14:23:13Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。