Fugu-MT 論文翻訳(概要): Bi-level Latent Variable Model for Sample-Efficient Multi-Agent Reinforcement Learning

論文の概要: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.06011v1
Date: Wed, 12 Apr 2023 17:46:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 14:07:41.670798
Title: Bi-level Latent Variable Model for Sample-Efficient Multi-Agent Reinforcement Learning
Title（参考訳）: サンプル効率の高いマルチエージェント強化学習のためのbiレベル潜在変数モデル
Authors: Aravind Venugopal, Stephanie Milani, Fei Fang, Balaraman Ravindran
Abstract要約: BiLL (Bi-Level Latent Variable Model-based Learning) は高次元入力から2レベル潜在変数モデルを学習する。 SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。
参考スコア（独自算出の注目度）: 44.45632323110452
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite their potential in real-world applications, multi-agent reinforcement learning (MARL) algorithms often suffer from high sample complexity. To address this issue, we present a novel model-based MARL algorithm, BiLL (Bi-Level Latent Variable Model-based Learning), that learns a bi-level latent variable model from high-dimensional inputs. At the top level, the model learns latent representations of the global state, which encode global information relevant to behavior learning. At the bottom level, it learns latent representations for each agent, given the global latent representations from the top level. The model generates latent trajectories to use for policy learning. We evaluate our algorithm on complex multi-agent tasks in the challenging SMAC and Flatland environments. Our algorithm outperforms state-of-the-art model-free and model-based baselines in sample efficiency, including on two extremely challenging Super Hard SMAC maps.
Abstract（参考訳）: 実世界の応用の可能性にもかかわらず、マルチエージェント強化学習(MARL)アルゴリズムは、しばしば高いサンプル複雑さに悩まされる。この問題に対処するために,高次元入力から2レベル潜在変数モデルを学ぶ新しいモデルベースmarlアルゴリズムbill(bi-level latent variable model-based learning)を提案する。トップレベルでは、モデルは、行動学習に関連するグローバル情報をエンコードするグローバル状態の潜在表現を学習する。下位レベルでは、トップレベルからグローバルな潜在表現を考えると、各エージェントの潜在表現を学習する。このモデルは政策学習に使用する潜在軌道を生成する。 SMACおよびFlatland環境における複雑なマルチエージェントタスクに対するアルゴリズムの評価を行った。提案アルゴリズムは,2つの極めて難解なSuper Hard SMACマップを含む,最先端のモデルフリーおよびモデルベースベースラインのサンプル効率に優れる。

関連論文リスト

Ego-centric Learning of Communicative World Models for Autonomous Driving [31.66608520780982]
自律運転などの複雑な高次元環境におけるタスクに対するマルチエージェント強化学習(MARL)について検討する。本研究では,その潜在表現とともに世界モデルに具現化された生成AIを利用することで,CALL,下線コミュニクアンダーライン型Worunderlineld Modeunderlinelを開発した。
論文参考訳（メタデータ） (2025-06-09T18:56:40Z)
Revisiting Multi-Agent World Modeling from a Diffusion-Inspired Perspective [45.44355861030715]
拡散モデルを用いたマルチエージェント強化学習(MARL)のためのフレキシブルで堅牢な世界モデルを開発する。本手法はDiffusion-Inspired Multi-Agent World Model (DIMA) を用いて,複数のマルチエージェント制御ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-27T09:11:38Z)
Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文参考訳（メタデータ） (2025-02-27T16:55:18Z)
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文参考訳（メタデータ） (2025-02-18T17:59:48Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Ranked from Within: Ranking Large Multimodal Models for Visual Question Answering Without Labels [64.94853276821992]
大規模マルチモーダルモデル(LMM)は、様々なアプリケーションにまたがってますます展開されている。従来の評価方法は、主にデータセット中心であり、固定されたラベル付きデータセットと教師付きメトリクスに依存している。ソフトマックス確率などの不確実性信号を利用したLMMの教師なしモデルランキングについて検討する。
論文参考訳（メタデータ） (2024-12-09T13:05:43Z)
Model-in-the-Loop (MILO): Accelerating Multimodal AI Data Annotation with LLMs [19.331803578031188]
本稿では,AI/MLモデルをアノテーションプロセスに統合するMILOフレームワークを提案する。我々の研究は、専門家のアノテータと大規模言語モデル(LLM)の長所を生かした協調パラダイムを導入する。マルチモーダルデータアノテーションに関する実験的な3つの研究は、MILOが処理時間を短縮し、データ品質を改善し、アノテータエクスペリエンスを向上させることの有効性を示している。
論文参考訳（メタデータ） (2024-09-16T20:05:57Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文参考訳（メタデータ） (2024-02-27T08:27:15Z)
Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文参考訳（メタデータ） (2023-02-17T14:17:44Z)
Off-the-Grid MARL: Datasets with Baselines for Offline Multi-Agent Reinforcement Learning [4.159549932951023]
オフラインマルチエージェント強化学習(MARL)は、このようなデータセットから効果的な分散型コントローラを構築するための有望なパラダイムを提供する。 MARLはまだ初期段階であり、標準化されたベンチマークデータセットとベースラインがない。 OG-MARLは、協調的なオフラインMARL研究のためのベースラインを持つ高品質データセットのリポジトリである。
論文参考訳（メタデータ） (2023-02-01T15:41:27Z)
Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling [101.59430768507997]
強化学習 (Reinforcement Learning, RL) エージェントは通常、世界の事前の知識なしに、タブラララザを学習する。抽象世界モデル (AWM) を仮定するために, 少数ショット大言語モデル (LLM) を提案する。 LLMを用いてAWMを仮定し, エージェント経験に基づくAWMの検証を行うことで, 従来手法よりもサンプル効率を桁違いに向上させることができる。
論文参考訳（メタデータ） (2023-01-28T02:04:07Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)
Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。 InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文参考訳（メタデータ） (2022-11-03T20:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。