論文の概要: Multi-Agent Reinforcement Learning with Selective State-Space Models
- arxiv url: http://arxiv.org/abs/2410.19382v1
- Date: Fri, 25 Oct 2024 08:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:13.279017
- Title: Multi-Agent Reinforcement Learning with Selective State-Space Models
- Title(参考訳): 選択的状態空間モデルを用いたマルチエージェント強化学習
- Authors: Jemma Daniel, Ruan de Kock, Louay Ben Nessir, Sasha Abramowitz, Omayma Mahjoub, Wiem Khlifi, Claude Formanek, Arnu Pretorius,
- Abstract要約: Transformerモデルは、MARL(Multi-Agent Reinforcement Learning)など、幅広い領域で成功を収めている。
Multi-Agent Transformer (MAT) はこの分野の主要なアルゴリズムとして登場した。
我々は、標準および双方向のMambaブロックと、新しい"クロスアテンション"Mambaブロックを組み込んだMATの修正版を紹介する。
- 参考スコア(独自算出の注目度): 3.8177843038388892
- License:
- Abstract: The Transformer model has demonstrated success across a wide range of domains, including in Multi-Agent Reinforcement Learning (MARL) where the Multi-Agent Transformer (MAT) has emerged as a leading algorithm in the field. The Transformer model has demonstrated success across a wide range of domains, including in Multi-Agent Reinforcement Learning (MARL) where the Multi-Agent Transformer (MAT) has emerged as a leading algorithm in the field. However, a significant drawback of Transformer models is their quadratic computational complexity relative to input size, making them computationally expensive when scaling to larger inputs. This limitation restricts MAT's scalability in environments with many agents. Recently, State-Space Models (SSMs) have gained attention due to their computational efficiency, but their application in MARL remains unexplored. In this work, we investigate the use of Mamba, a recent SSM, in MARL and assess whether it can match the performance of MAT while providing significant improvements in efficiency. We introduce a modified version of MAT that incorporates standard and bi-directional Mamba blocks, as well as a novel "cross-attention" Mamba block. Extensive testing shows that our Multi-Agent Mamba (MAM) matches the performance of MAT across multiple standard multi-agent environments, while offering superior scalability to larger agent scenarios. This is significant for the MARL community, because it indicates that SSMs could replace Transformers without compromising performance, whilst also supporting more effective scaling to higher numbers of agents. Our project page is available at https://sites.google.com/view/multi-agent-mamba .
- Abstract(参考訳): Transformerモデルは、MARL(Multi-Agent Reinforcement Learning)など、幅広い領域で成功を収めている。
Transformerモデルは、MARL(Multi-Agent Reinforcement Learning)など、幅広い領域で成功を収めている。
しかし、Transformerモデルの大きな欠点は、入力サイズに対して2次計算の複雑さである。
この制限は、多くのエージェントを持つ環境におけるMATのスケーラビリティを制限する。
近年, 状態空間モデル (SSM) の計算効率が注目されているが, MARL での応用は未検討である。
本研究では,近年のSSMであるMambaをMARLに適用し,MATの性能に適合できるかどうかを検証し,効率を大幅に向上させる。
我々は、標準および双方向のMambaブロックと、新しい"クロスアテンション"Mambaブロックを組み込んだMATの修正版を紹介する。
大規模なテストでは、Multi-Agent Mamba (MAM) が複数の標準的なマルチエージェント環境にまたがる MAT のパフォーマンスと一致し、より大きなエージェントシナリオに対して優れたスケーラビリティを提供する。
これはMARLコミュニティにとって重要なことであり、SSMはパフォーマンスを損なうことなくTransformerを置き換えることができる一方で、より多くのエージェントへのより効率的なスケーリングもサポートしている。
私たちのプロジェクトページはhttps://sites.google.com/view/multi-agent-mamba で公開されている。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - Very Large-Scale Multi-Agent Simulation in AgentScope [112.98986800070581]
我々は,ユーザフレンドリーなマルチエージェントプラットフォームであるAgentScopeの新機能とコンポーネントを開発した。
高いスケーラビリティと高効率を実現するために,アクタをベースとした分散機構を提案する。
また、多数のエージェントを便利に監視し、管理するためのWebベースのインターフェースも提供します。
論文 参考訳(メタデータ) (2024-07-25T05:50:46Z) - MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーポリシーに代わる計算効率の良い代替手段を提供する、新しい模倣学習アーキテクチャである。
Mambaは、Transformersに対するSSMやライバルのパフォーマンスを大幅に改善し、ILポリシーの魅力的な代替品として位置づけている。
論文 参考訳(メタデータ) (2024-06-12T14:01:12Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
MambaADは、事前訓練されたエンコーダと(Locality-Enhanced State Space)LSSモジュールをマルチスケールで備えたMambaデコーダで構成されている。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks [25.092302463435523]
状態空間モデル(SSM)は言語モデリングにおけるトランスフォーマーネットワークの代替として提案されている。
本研究では,各種タスクを対象としたトランスフォーマーモデルに対して,マンバに着目したSSMのICL性能を評価する。
論文 参考訳(メタデータ) (2024-02-06T18:56:35Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Multi-Agent Reinforcement Learning is a Sequence Modeling Problem [33.679936867612525]
マルチエージェントトランス (MAT) という新しいアーキテクチャを導入する。
MATは協調型マルチエージェント強化学習(MARL)をSM問題にキャストする。
MATの中心はエンコーダ・デコーダアーキテクチャであり、共同ポリシー探索問題を逐次決定プロセスに変換する。
論文 参考訳(メタデータ) (2022-05-30T09:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。