論文の概要: CoDreamer: Communication-Based Decentralised World Models
- arxiv url: http://arxiv.org/abs/2406.13600v1
- Date: Wed, 19 Jun 2024 14:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 19:24:08.010572
- Title: CoDreamer: Communication-Based Decentralised World Models
- Title(参考訳): CoDreamer: コミュニケーションベースの分散世界モデル
- Authors: Edan Toledo, Amanda Prorok,
- Abstract要約: CoDreamerはマルチエージェント環境のためのDreamerアルゴリズムの拡張である。
我々はCoDreamerがDreamerの単純な応用よりも表現力が高いことを示す。
- 参考スコア(独自算出の注目度): 7.598921989525738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sample efficiency is a critical challenge in reinforcement learning. Model-based RL has emerged as a solution, but its application has largely been confined to single-agent scenarios. In this work, we introduce CoDreamer, an extension of the Dreamer algorithm for multi-agent environments. CoDreamer leverages Graph Neural Networks for a two-level communication system to tackle challenges such as partial observability and inter-agent cooperation. Communication is separately utilised within the learned world models and within the learned policies of each agent to enhance modelling and task-solving. We show that CoDreamer offers greater expressive power than a naive application of Dreamer, and we demonstrate its superiority over baseline methods across various multi-agent environments.
- Abstract(参考訳): サンプル効率は強化学習において重要な課題である。
モデルベースのRLは、ソリューションとして登場したが、そのアプリケーションは、主に単一エージェントのシナリオに限られている。
本研究では,マルチエージェント環境のためのDreamerアルゴリズムの拡張であるCoDreamerを紹介する。
CoDreamerはグラフニューラルネットワークを2レベル通信システムとして利用し、部分観測可能性やエージェント間の協調といった課題に対処する。
コミュニケーションは、学習された世界のモデルと、各エージェントの学習されたポリシーの中で別々に利用され、モデリングとタスク解決を強化する。
我々は,CoDreamerがDreamerの素質的応用よりも表現力が高く,多様なマルチエージェント環境におけるベースライン手法よりも優れていることを示す。
関連論文リスト
- Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Learning Multi-Agent Communication from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
提案手法であるCommFormerは,通信グラフを効率よく最適化し,勾配降下によるアーキテクチャパラメータをエンドツーエンドで並列に洗練する。
論文 参考訳(メタデータ) (2024-05-14T12:40:25Z) - COMBO: Compositional World Models for Embodied Multi-Agent Cooperation [64.27636858152522]
分散エージェントは、世界の部分的な自我中心的な見解にのみ、協力しなくてはならない。
我々は、部分的な自我中心の観測から世界全体の状態を推定するために生成モデルを訓練する。
複数のエージェントの自然な構成可能な共同動作を分解することにより、マルチエージェント協調のための構成的世界モデルを学ぶ。
論文 参考訳(メタデータ) (2024-04-16T17:59:11Z) - An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem [22.385585755496116]
既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-26T18:43:16Z) - An attention model for the formation of collectives in real-world
domains [78.1526027174326]
本研究では,サステナブル開発目標に沿った実世界のアプリケーションにエージェントの集合を形成することの問題点を考察する。
本稿では,注目モデルと整数線形プログラムの新たな組み合わせに基づく集合形成のための一般的な手法を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:15:36Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。