論文の概要: MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.02006v1
- Date: Sat, 3 Jun 2023 05:32:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:44:05.427505
- Title: MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning
- Title(参考訳): MA2CL:マルチエージェント強化学習のためのマスク付き注意コントラスト学習
- Authors: Haolin Song, Mingxiao Feng, Wengang Zhou, Houqiang Li
- Abstract要約: 我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
- 参考スコア(独自算出の注目度): 128.19212716007794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent approaches have utilized self-supervised auxiliary tasks as
representation learning to improve the performance and sample efficiency of
vision-based reinforcement learning algorithms in single-agent settings.
However, in multi-agent reinforcement learning (MARL), these techniques face
challenges because each agent only receives partial observation from an
environment influenced by others, resulting in correlated observations in the
agent dimension. So it is necessary to consider agent-level information in
representation learning for MARL. In this paper, we propose an effective
framework called \textbf{M}ulti-\textbf{A}gent \textbf{M}asked
\textbf{A}ttentive \textbf{C}ontrastive \textbf{L}earning (MA2CL), which
encourages learning representation to be both temporal and agent-level
predictive by reconstructing the masked agent observation in latent space.
Specifically, we use an attention reconstruction model for recovering and the
model is trained via contrastive learning. MA2CL allows better utilization of
contextual information at the agent level, facilitating the training of MARL
agents for cooperation tasks. Extensive experiments demonstrate that our method
significantly improves the performance and sample efficiency of different MARL
algorithms and outperforms other methods in various vision-based and
state-based scenarios. Our code can be found in
\url{https://github.com/ustchlsong/MA2CL}
- Abstract(参考訳): 近年, 自己指導型補助課題を表現学習として活用し, 視覚に基づく強化学習アルゴリズムの性能向上とサンプル効率の向上を図っている。
しかし,マルチエージェント強化学習(marl)では,各エージェントが他者の影響を受ける環境からのみ部分的観察を受けるため,エージェント次元の相関観測が困難となる。
したがって,MARLの表現学習においてエージェントレベルの情報を考慮する必要がある。
本稿では,潜在空間におけるマスキングエージェント観測を再構成することにより,学習表現を時間的およびエージェントレベルで予測することを奨励する,効果的なフレームワークである \textbf{m}ulti-\textbf{a}gent \textbf{m}asked \textbf{a}ttentive \textbf{c}ontrastive \textbf{l}earning (ma2cl)を提案する。
具体的には,注意リコンストラクションモデルを用いてリカバリを行い,コントラスト学習によりモデルを訓練する。
MA2CLは、エージェントレベルでのコンテキスト情報のより良い利用を可能にし、協調作業のためのMARLエージェントのトレーニングを容易にする。
広汎な実験により,本手法は様々なMARLアルゴリズムの性能とサンプル効率を著しく向上し,様々な視覚的,状態的シナリオにおいて他の手法よりも優れることが示された。
我々のコードは \url{https://github.com/ustchlsong/MA2CL} にある。
関連論文リスト
- MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents [28.419007116364668]
MLLMエージェントは、マルチモーダルなタスク関連軌道データを取得することで、複雑なエンボディされたタスクの可能性を実証する。
現在の検索手法は、主に軌跡におけるテキストや視覚的手がかりの表面レベルでの類似性に注目し、その特定のタスクに対する有効性を無視している。
本稿では,MLLMレシーバを微調整するためのインタラクションデータを活用することで,組込みエージェントの性能を向上させる新しい手法であるMLLM as ReTriever (MART)を提案する。
論文 参考訳(メタデータ) (2024-10-04T14:10:39Z) - DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning [10.186029242664931]
我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
論文 参考訳(メタデータ) (2024-06-05T03:11:44Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。