Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

論文の概要: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem

arxiv url: http://arxiv.org/abs/2205.14953v1
Date: Mon, 30 May 2022 09:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 18:45:45.733543
Title: Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
Title（参考訳）: マルチエージェント強化学習はシーケンスモデリング問題である
Authors: Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang and Yaodong Yang
Abstract要約: マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。 MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。 MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
参考スコア（独自算出の注目度）: 33.679936867612525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large sequence model (SM) such as GPT series and BERT has displayed outstanding performance and generalization capabilities on vision, language, and recently reinforcement learning tasks. A natural follow-up question is how to abstract multi-agent decision making into an SM problem and benefit from the prosperous development of SMs. In this paper, we introduce a novel architecture named Multi-Agent Transformer (MAT) that effectively casts cooperative multi-agent reinforcement learning (MARL) into SM problems wherein the task is to map agents' observation sequence to agents' optimal action sequence. Our goal is to build the bridge between MARL and SMs so that the modeling power of modern sequence models can be unleashed for MARL. Central to our MAT is an encoder-decoder architecture which leverages the multi-agent advantage decomposition theorem to transform the joint policy search problem into a sequential decision making process; this renders only linear time complexity for multi-agent problems and, most importantly, endows MAT with monotonic performance improvement guarantee. Unlike prior arts such as Decision Transformer fit only pre-collected offline data, MAT is trained by online trials and errors from the environment in an on-policy fashion. To validate MAT, we conduct extensive experiments on StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation, and Google Research Football benchmarks. Results demonstrate that MAT achieves superior performance and data efficiency compared to strong baselines including MAPPO and HAPPO. Furthermore, we demonstrate that MAT is an excellent few-short learner on unseen tasks regardless of changes in the number of agents. See our project page at https://sites.google.com/view/multi-agent-transformer.
Abstract（参考訳）: GPTシリーズやBERTのような大規模シーケンスモデル(SM)は、視覚、言語、最近では強化学習タスクにおいて優れた性能と一般化能力を示している。自然なフォローアップ問題は、マルチエージェントの意思決定をSM問題に抽象化し、SMの繁栄による利益を得る方法である。本稿では,MARL(Multi-Agent Transformer)と呼ばれる新しいアーキテクチャを導入し,協調型マルチエージェント強化学習(MARL)をSM問題に効果的に適用し,エージェントの観察シーケンスをエージェントの最適なアクションシーケンスにマッピングする。我々のゴールは、MARL と SM のブリッジを構築し、最新のシーケンスモデルのモデリング能力を MARL のために解き放つことである。私たちのマットの中心にあるエンコーダ・デコーダアーキテクチャは、マルチエージェントのアドバンテージ分解定理を利用して、ジョイントポリシー探索問題をシーケンシャルな意思決定プロセスに変換するものです。事前収集されたオフラインデータのみに適合する決定トランスフォーマーのような先行技術とは異なり、matはオンライントライアルとオンポリシーな方法で環境からのエラーによって訓練される。 MATを検証するために,StarCraftII,Multi-Agent MuJoCo,Dexterous Hands Manipulation,Google Research Footballベンチマークの広範な実験を行った。その結果,MATはMAPPOやHAPPOといった強力なベースラインと比較して,優れた性能とデータ効率を実現することがわかった。さらに, エージェント数の変化にかかわらず, MATは未確認タスクにおいて, 極めて少ない学習者であることを示す。プロジェクトページはhttps://sites.google.com/view/multi-agent-transformerを参照。

関連論文リスト

MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文参考訳（メタデータ） (2025-03-19T14:46:53Z)
SRMT: Shared Memory for Multi-agent Lifelong Pathfinding [4.192235624580332]
マルチエージェント強化学習(MARL)は協調的・競合的なマルチエージェント問題を解く上で大きな進歩を示す。 MARLの主な課題の1つは、協力を達成するためにエージェントの行動を明確に予測する必要があることである。本稿では,各ワーキングメモリをプールし,グローバルにブロードキャストすることで,メモリ変換器をマルチエージェント設定に拡張する共有リカレントメモリ変換器(SRMT)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:08:53Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。 MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。 Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。 Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-11-07T06:36:19Z)
Multi-Agent Reinforcement Learning with Selective State-Space Models [3.8177843038388892]
状態空間モデル(SSM)はその計算効率のために注目されている。本研究では,MARL(Multi-Agent Reinforcement Learning)における最近のSSMであるMambaの使用について検討する。我々は、標準および双方向のMambaブロックと、新しい"クロスアテンション"Mambaブロックを組み込んだMATの修正版を紹介する。
論文参考訳（メタデータ） (2024-10-25T08:32:21Z)
Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-06-26T07:12:06Z)
Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文参考訳（メタデータ） (2023-10-12T16:06:18Z)
Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-30T14:28:26Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。 MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文参考訳（メタデータ） (2022-12-15T13:57:07Z)
Off-Policy Correction For Multi-Agent Reinforcement Learning [9.599347559588216]
マルチエージェント強化学習(MARL)は、複数の対話エージェントに関わる問題のためのフレームワークを提供する。単エージェントの場合と明らかに類似しているにもかかわらず、マルチエージェント問題はしばしば、理論的な訓練と解析が困難である。我々は、V-TraceをMARL設定まで拡張する、新しいオンラインアクター批判アルゴリズムMA-Traceを提案する。
論文参考訳（メタデータ） (2021-11-22T14:23:13Z)
MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。 PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文参考訳（メタデータ） (2021-06-05T03:27:08Z)
Transfer Learning for Sequence Generation: from Single-source to Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文参考訳（メタデータ） (2021-05-31T09:12:38Z)
UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文参考訳（メタデータ） (2021-01-20T07:24:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。