論文の概要: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.06011v1
- Date: Wed, 12 Apr 2023 17:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:07:41.670798
- Title: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent
Reinforcement Learning
- Title(参考訳): サンプル効率の高いマルチエージェント強化学習のためのbiレベル潜在変数モデル
- Authors: Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran
- Abstract要約: BiLL (Bi-Level Latent Variable Model-based Learning) は高次元入力から2レベル潜在変数モデルを学習する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 44.45632323110452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their potential in real-world applications, multi-agent reinforcement
learning (MARL) algorithms often suffer from high sample complexity. To address
this issue, we present a novel model-based MARL algorithm, BiLL (Bi-Level
Latent Variable Model-based Learning), that learns a bi-level latent variable
model from high-dimensional inputs. At the top level, the model learns latent
representations of the global state, which encode global information relevant
to behavior learning. At the bottom level, it learns latent representations for
each agent, given the global latent representations from the top level. The
model generates latent trajectories to use for policy learning. We evaluate our
algorithm on complex multi-agent tasks in the challenging SMAC and Flatland
environments. Our algorithm outperforms state-of-the-art model-free and
model-based baselines in sample efficiency, including on two extremely
challenging Super Hard SMAC maps.
- Abstract(参考訳): 実世界の応用の可能性にもかかわらず、マルチエージェント強化学習(MARL)アルゴリズムは、しばしば高いサンプル複雑さに悩まされる。
この問題に対処するために,高次元入力から2レベル潜在変数モデルを学ぶ新しいモデルベースmarlアルゴリズムbill(bi-level latent variable model-based learning)を提案する。
トップレベルでは、モデルは、行動学習に関連するグローバル情報をエンコードするグローバル状態の潜在表現を学習する。
下位レベルでは、トップレベルからグローバルな潜在表現を考えると、各エージェントの潜在表現を学習する。
このモデルは政策学習に使用する潜在軌道を生成する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
提案アルゴリズムは,2つの極めて難解なSuper Hard SMACマップを含む,最先端のモデルフリーおよびモデルベースベースラインのサンプル効率に優れる。
関連論文リスト
- Leveraging World Model Disentanglement in Value-Based Multi-Agent
Reinforcement Learning [18.651307543537655]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。
本研究では,本手法が高サンプリング効率を実現し,敵軍を撃破する性能が他のベースラインよりも優れていることを示すために,簡単な,ハード,スーパーハードのStarCraft IIマイクロマネジメントの課題について実験的に検討した。
論文 参考訳(メタデータ) (2023-09-08T22:12:43Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Deep Active Learning by Model Interpretability [7.3461534048332275]
本稿では, 線形分離可能なサンプル領域について, アクティブラーニングの課題について紹介する。
モデル解釈可能性(DAMI)を用いた新しい深層能動学習手法を提案する。
ラベルなしデータ全体の最大代表性を維持するため、DAMIは異なる線形分離可能な領域のサンプルを選択してラベル付けしようとする。
論文 参考訳(メタデータ) (2020-07-23T16:06:27Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - PAC Bounds for Imitation and Model-based Batch Learning of Contextual
Markov Decision Processes [31.83144400718369]
本稿では,コンテキスト記述子を用いたマルチタスク強化学習のバッチ化の問題点について考察する。
直接政策学習(DPL)、専門家の軌道から学習する模倣学習に基づくアプローチ、モデルに基づく学習という2つの一般的な学習アルゴリズムについて研究する。
論文 参考訳(メタデータ) (2020-06-11T11:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。