論文の概要: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.06011v1
- Date: Wed, 12 Apr 2023 17:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 14:07:41.670798
- Title: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent
Reinforcement Learning
- Title(参考訳): サンプル効率の高いマルチエージェント強化学習のためのbiレベル潜在変数モデル
- Authors: Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran
- Abstract要約: BiLL (Bi-Level Latent Variable Model-based Learning) は高次元入力から2レベル潜在変数モデルを学習する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
- 参考スコア(独自算出の注目度): 44.45632323110452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their potential in real-world applications, multi-agent reinforcement
learning (MARL) algorithms often suffer from high sample complexity. To address
this issue, we present a novel model-based MARL algorithm, BiLL (Bi-Level
Latent Variable Model-based Learning), that learns a bi-level latent variable
model from high-dimensional inputs. At the top level, the model learns latent
representations of the global state, which encode global information relevant
to behavior learning. At the bottom level, it learns latent representations for
each agent, given the global latent representations from the top level. The
model generates latent trajectories to use for policy learning. We evaluate our
algorithm on complex multi-agent tasks in the challenging SMAC and Flatland
environments. Our algorithm outperforms state-of-the-art model-free and
model-based baselines in sample efficiency, including on two extremely
challenging Super Hard SMAC maps.
- Abstract(参考訳): 実世界の応用の可能性にもかかわらず、マルチエージェント強化学習(MARL)アルゴリズムは、しばしば高いサンプル複雑さに悩まされる。
この問題に対処するために,高次元入力から2レベル潜在変数モデルを学ぶ新しいモデルベースmarlアルゴリズムbill(bi-level latent variable model-based learning)を提案する。
トップレベルでは、モデルは、行動学習に関連するグローバル情報をエンコードするグローバル状態の潜在表現を学習する。
下位レベルでは、トップレベルからグローバルな潜在表現を考えると、各エージェントの潜在表現を学習する。
このモデルは政策学習に使用する潜在軌道を生成する。
SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
提案アルゴリズムは,2つの極めて難解なSuper Hard SMACマップを含む,最先端のモデルフリーおよびモデルベースベースラインのサンプル効率に優れる。
関連論文リスト
- Probing Multimodal Large Language Models for Global and Local Semantic
Representation [60.67306625022419]
本研究では,マルチモーダル大言語モデル (MLLM) が完全な画像情報を真に理解しているかどうかを考察する。
モデルの中間層は、よりグローバルな意味情報をエンコードすることができ、その表現は視覚言語によるエンタテインメントタスクでより良く機能する。
そして、最上位層が過度にローカル情報にフォーカスする可能性があるという結論を導き、グローバル情報をエンコードする能力は低下する。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Tunable Soft Prompts are Messengers in Federated Learning [55.924749085481544]
フェデレートラーニング(FL)は、複数の参加者が分散データソースを使用して機械学習モデルを協調的にトレーニングすることを可能にする。
FLにおけるモデルプライバシ保護の欠如は無視できない課題となっている。
そこで本研究では,ソフトプロンプトによって参加者間の情報交換を実現する新しいFLトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T11:01:10Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z) - Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent
Reinforcement Learning [4.159549932951023]
オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効果的な分散型コントローラを構築するための有望なパラダイムを提供する。
MARLはまだ初期段階であり、標準化されたベンチマークデータセットとベースラインがない。
OG-MARLは、協調的なオフラインMARL研究のためのベースラインを持つ高品質データセットのリポジトリである。
論文 参考訳(メタデータ) (2023-02-01T15:41:27Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Scalable Multi-Agent Reinforcement Learning through Intelligent
Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。
InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文 参考訳(メタデータ) (2022-11-03T20:02:45Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - MARLeME: A Multi-Agent Reinforcement Learning Model Extraction Library [0.43830114853179497]
記号モデルは高い解釈可能性、明確に定義された性質、検証可能な振る舞いを提供する。
それらは、基礎となるMARLシステムと対応するMARLエージェントを検査し、よりよく理解するために使用できる。
論文 参考訳(メタデータ) (2020-04-16T20:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。