論文の概要: Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.02890v1
- Date: Wed, 5 Jun 2024 03:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 22:05:49.144719
- Title: Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning
- Title(参考訳): 効率的な多エージェント強化学習のための表現学習
- Authors: Dom Huh, Prasant Mohapatra,
- Abstract要約: 我々は,MARL訓練を補完するために考案された総合表現学習の形式を適用したMAPO-LSOを提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案する。
実験の結果,MAPO-LSOはバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
- 参考スコア(独自算出の注目度): 10.186029242664931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency remains a key challenge in multi-agent reinforcement learning (MARL). A promising approach is to learn a meaningful latent representation space through auxiliary learning objectives alongside the MARL objective to aid in learning a successful control policy. In our work, we present MAPO-LSO (Multi-Agent Policy Optimization with Latent Space Optimization) which applies a form of comprehensive representation learning devised to supplement MARL training. Specifically, MAPO-LSO proposes a multi-agent extension of transition dynamics reconstruction and self-predictive learning that constructs a latent state optimization scheme that can be trivially extended to current state-of-the-art MARL algorithms. Empirical results demonstrate MAPO-LSO to show notable improvements in sample efficiency and learning performance compared to its vanilla MARL counterpart without any additional MARL hyperparameter tuning on a diverse suite of MARL tasks.
- Abstract(参考訳): サンプル効率はマルチエージェント強化学習(MARL)において依然として重要な課題である。
有望なアプローチは、MARLの目的に沿った補助的な学習目標を通じて有意義な潜在表現空間を学習し、制御ポリシーの学習を支援することである。
本稿では,MAPO-LSO(Multi-Agent Policy Optimization with Latent Space Optimization)を提案する。
特に、MAPO-LSOは遷移力学再構成と自己予測学習のマルチエージェント拡張を提案し、現在の最先端MARLアルゴリズムに自明に拡張できる潜在状態最適化スキームを構築している。
実験の結果,MAPO-LSOは,多種多様なMARLタスクに対して,追加のMARLハイパーパラメータチューニングを伴わないバニラMARLと比較して,サンプル効率と学習性能の顕著な向上を示した。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
スケーラブルで不均一なポリシー最適化(SHPPO)という新しいフレームワークを提案する。
提案手法は,最先端のバックボーンPPOベースのアルゴリズムであるSHPPOをベースとしている。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において、ベースラインよりも優れたパフォーマンスを示す
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - ESP: Exploiting Symmetry Prior for Multi-Agent Reinforcement Learning [22.733348449818838]
マルチエージェント強化学習(MARL)は近年,有望な成果を上げている。
本稿では、データ拡張とよく設計された一貫性損失を統合することで、事前知識を活用するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T09:49:05Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Model-based Multi-agent Reinforcement Learning: Recent Progress and
Prospects [23.347535672670688]
マルチエージェント強化学習(MARL)は、複数の参加者が関与するシーケンシャルな意思決定問題に取り組む。
MARLは効果的なトレーニングのために膨大な数のサンプルを必要とする。
モデルに基づく手法は、サンプル効率の証明可能な利点を実現することが示されている。
論文 参考訳(メタデータ) (2022-03-20T17:24:47Z) - MAML is a Noisy Contrastive Learner [72.04430033118426]
モデルに依存しないメタラーニング(MAML)は、今日では最も人気があり広く採用されているメタラーニングアルゴリズムの1つである。
我々は、MAMLの動作メカニズムに対する新たな視点を提供し、以下に示すように、MAMLは、教師付きコントラスト目的関数を用いたメタラーナーに類似している。
このような干渉を軽減するため, 単純だが効果的な手法であるゼロ化手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。