論文の概要: MABL: Bi-Level Latent-Variable World Model for Sample-Efficient
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.06011v2
- Date: Tue, 13 Feb 2024 19:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 20:10:20.438518
- Title: MABL: Bi-Level Latent-Variable World Model for Sample-Efficient
Multi-Agent Reinforcement Learning
- Title(参考訳): MABL:マルチエージェント強化学習のための2レベル遅延可変世界モデル
- Authors: Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran
- Abstract要約: 本稿では,2レベル潜在変数世界モデルを高次元入力から学習するモデルベースMARLアルゴリズムMABLを提案する。
各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。
MaBLは、サンプル効率と全体的な性能の両方において、SOTAのマルチエージェント潜在変数世界モデルを上回っている。
- 参考スコア(独自算出の注目度): 43.30657890400801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) methods often suffer from high
sample complexity, limiting their use in real-world problems where data is
sparse or expensive to collect. Although latent-variable world models have been
employed to address this issue by generating abundant synthetic data for MARL
training, most of these models cannot encode vital global information available
during training into their latent states, which hampers learning efficiency.
The few exceptions that incorporate global information assume centralized
execution of their learned policies, which is impractical in many applications
with partial observability.
We propose a novel model-based MARL algorithm, MABL (Multi-Agent Bi-Level
world model), that learns a bi-level latent-variable world model from
high-dimensional inputs. Unlike existing models, MABL is capable of encoding
essential global information into the latent states during training while
guaranteeing the decentralized execution of learned policies. For each agent,
MABL learns a global latent state at the upper level, which is used to inform
the learning of an agent latent state at the lower level. During execution,
agents exclusively use lower-level latent states and act independently.
Crucially, MABL can be combined with any model-free MARL algorithm for policy
learning. In our empirical evaluation with complex discrete and continuous
multi-agent tasks including SMAC, Flatland, and MAMuJoCo, MABL surpasses SOTA
multi-agent latent-variable world models in both sample efficiency and overall
performance.
- Abstract(参考訳): マルチエージェント強化学習(MARL)手法は、しばしばサンプルの複雑さに悩まされ、収集するデータが希少で高価な実世界の問題での使用を制限する。
潜在変数世界モデルは、MARLトレーニングのために豊富な合成データを生成することでこの問題に対処するために使用されているが、これらのモデルのほとんどは、学習効率を損なう潜在状態へのトレーニング中に利用可能な重要なグローバル情報を符号化することはできない。
グローバルな情報を含む数少ない例外は、学習したポリシーの集中的な実行を前提としている。
高次元入力から2レベル潜在変数世界モデルを学習するモデルベースMARLアルゴリズムMABL(Multi-Agent Bi-Level world model)を提案する。
既存のモデルとは異なり、MABLは学習されたポリシーの分散実行を保証しながら、トレーニング中に重要なグローバル情報を潜在状態にエンコードすることができる。
各エージェントについて、MABLは、上位レベルにおけるグローバル潜伏状態を学び、下位レベルにおけるエージェント潜伏状態の学習を知らせるために使用される。
実行中、エージェントは下位の潜伏状態のみを使用し、独立して行動する。
重要なことに、MABLはポリシー学習のためのモデルなしのMARLアルゴリズムと組み合わせることができる。
SMAC、Flatland、MAMuJoCoといった複雑な離散的かつ連続的なマルチエージェントタスクを用いた実証評価では、MABLはサンプル効率と全体的な性能の両方においてSOTA多エージェント潜在変数世界モデルを上回っている。
関連論文リスト
- Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [41.02446816970586]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。
従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。
ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。
我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。
マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文 参考訳(メタデータ) (2024-09-16T20:05:57Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z) - Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent
Reinforcement Learning [4.159549932951023]
オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効果的な分散型コントローラを構築するための有望なパラダイムを提供する。
MARLはまだ初期段階であり、標準化されたベンチマークデータセットとベースラインがない。
OG-MARLは、協調的なオフラインMARL研究のためのベースラインを持つ高品質データセットのリポジトリである。
論文 参考訳(メタデータ) (2023-02-01T15:41:27Z) - Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making
using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。
抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。
LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文 参考訳(メタデータ) (2023-01-28T02:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。