論文の概要: UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers
- arxiv url: http://arxiv.org/abs/2101.08001v3
- Date: Sun, 7 Feb 2021 10:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:35:56.058316
- Title: UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers
- Title(参考訳): UPDeT: トランスフォーマーとのポリシーデカップリングによるユニバーサルマルチエージェント強化学習
- Authors: Siyi Hu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang
- Abstract要約: タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
- 参考スコア(独自算出の注目度): 108.92194081987967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-agent reinforcement learning have been largely
limited in training one model from scratch for every new task. The limitation
is due to the restricted model architecture related to fixed input and output
dimensions. This hinders the experience accumulation and transfer of the
learned agent over tasks with diverse levels of difficulty (e.g. 3 vs 3 or 5 vs
6 multi-agent games). In this paper, we make the first attempt to explore a
universal multi-agent reinforcement learning pipeline, designing one single
architecture to fit tasks with the requirement of different observation and
action configurations. Unlike previous RNN-based models, we utilize a
transformer-based model to generate a flexible policy by decoupling the policy
distribution from the intertwined input observation with an importance weight
measured by the merits of the self-attention mechanism. Compared to a standard
transformer block, the proposed model, named as Universal Policy Decoupling
Transformer (UPDeT), further relaxes the action restriction and makes the
multi-agent task's decision process more explainable. UPDeT is general enough
to be plugged into any multi-agent reinforcement learning pipeline and equip
them with strong generalization abilities that enables the handling of multiple
tasks at a time. Extensive experiments on large-scale SMAC multi-agent
competitive games demonstrate that the proposed UPDeT-based multi-agent
reinforcement learning achieves significant results relative to
state-of-the-art approaches, demonstrating advantageous transfer capability in
terms of both performance and training speed (10 times faster).
- Abstract(参考訳): マルチエージェント強化学習の最近の進歩は、新しいタスクごとに1つのモデルをスクラッチからトレーニングすることに大きく制限されている。
この制限は、固定された入力と出力の次元に関連する制限されたモデルアーキテクチャに起因する。
これにより、さまざまなレベルの難易度を持つタスク(例えば、学習エージェントの蓄積と転送を妨げます。
3対3または5対6のマルチエージェントゲーム)。
本稿では,マルチエージェント強化学習パイプラインの汎用化に向けた最初の試みとして,異なる観測・動作構成の要求に適合する1つの単一アーキテクチャを設計する。
従来のRNNモデルとは違って,自己注意機構の利点によって測定された重み付き入力観測からポリシー分布を分離することにより,トランスフォーマモデルを用いてフレキシブルなポリシーを生成する。
標準変圧器ブロックと比較すると,UPDeT(Universal Policy Decoupling Transformer)と呼ばれるモデルが動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにしている。
UPDeTは、任意のマルチエージェント強化学習パイプラインにプラグインして、複数のタスクを同時に処理できる強力な一般化能力を備えるのに十分な一般性を持っている。
大規模SMACマルチエージェント競争ゲームにおける大規模な実験により、UPDeTベースのマルチエージェント強化学習は、最先端のアプローチと比較して有意な結果が得られ、性能とトレーニング速度の両面で有利な転送能力を示す。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Dynamic Transformer Architecture for Continual Learning of Multimodal
Tasks [27.59758964060561]
トランスフォーマーニューラルネットワークは、さまざまなデータモダリティの幅広いアプリケーションにおいて、以前のアーキテクチャを置き換える傾向にある。
連続学習(CL)は、自律学習エージェントに順次到着するタスク間で知識の伝達を容易にすることで、ソリューションとして現れる。
本稿では,視覚と言語の両方に関わる学習タスクに着目したトランスフォーマーベースのCLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T03:03:30Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - FedYolo: Augmenting Federated Learning with Pretrained Transformers [61.56476056444933]
本研究では,デバイス上での学習目標を達成するための事前学習型トランスフォーマー(PTF)について検討する。
大規模化により,代替手法間の精度ギャップが小さくなり,ロバスト性も向上することを示す。
最後に、クライアントは単一のPTFを使用して複数の無関係なタスクを同時に解決できる。
論文 参考訳(メタデータ) (2023-07-10T21:08:52Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Low-level Pose Control of Tilting Multirotor for Wall Perching Tasks
Using Reinforcement Learning [2.5903488573278284]
実世界の応用において,傾き型マルチロータを制御するための新しい強化学習手法を提案する。
提案手法は,傾斜マルチロータの複雑な力学を克服し,頑健な制御性を示す。
論文 参考訳(メタデータ) (2021-08-11T21:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。