論文の概要: Containerized Distributed Value-Based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.08169v1
- Date: Fri, 15 Oct 2021 15:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:47:32.102885
- Title: Containerized Distributed Value-Based Multi-Agent Reinforcement Learning
- Title(参考訳): コンテナ化された分散値型マルチエージェント強化学習
- Authors: Siyang Wu, Tonghan Wang, Chenghao Li, Chongjie Zhang
- Abstract要約: コンテナ化されたマルチエージェント強化学習フレームワークを提案する。
本誌のやり方は、Google Research Footballのフルゲーム5.v_5$の難題を解く最初の方法だ。
StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-18times$よい結果が得られる。
- 参考スコア(独自算出の注目度): 18.79371121484969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning tasks put a high demand on the volume of
training samples. Different from its single-agent counterpart, distributed
value-based multi-agent reinforcement learning faces the unique challenges of
demanding data transfer, inter-process communication management, and high
requirement of exploration. We propose a containerized learning framework to
solve these problems. We pack several environment instances, a local learner
and buffer, and a carefully designed multi-queue manager which avoids blocking
into a container. Local policies of each container are encouraged to be as
diverse as possible, and only trajectories with highest priority are sent to a
global learner. In this way, we achieve a scalable, time-efficient, and diverse
distributed MARL learning framework with high system throughput. To own
knowledge, our method is the first to solve the challenging Google Research
Football full game $5\_v\_5$. On the StarCraft II micromanagement benchmark,
our method gets $4$-$18\times$ better results compared to state-of-the-art
non-distributed MARL algorithms.
- Abstract(参考訳): マルチエージェント強化学習タスクは、トレーニングサンプルの量に高い需要をもたらした。
単一エージェントと異なり、分散バリューベースのマルチエージェント強化学習は、データ転送、プロセス間通信管理、探索の高要求といった、ユニークな課題に直面している。
これらの問題を解決するためのコンテナ化学習フレームワークを提案する。
いくつかの環境インスタンス、ローカルラーナとバッファ、コンテナへのブロックを避けるために慎重に設計されたマルチキューマネージャをパックします。
各コンテナのローカルポリシは可能な限り多様であり、最優先のトラジェクトリのみがグローバルな学習者に送信される。
このようにして、高スループットでスケーラブルで時間効率が高く、多様な分散MARL学習フレームワークを実現する。
われわれのやり方は、Google Research Footballのフルゲーム5.5ドルの難題を解決する最初の方法だ。
StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-$18\times$良い結果が得られる。
関連論文リスト
- Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - Inverse Factorized Q-Learning for Cooperative Multi-agent Imitation
Learning [13.060023718506917]
模倣学習(英: mimicion learning, IL)は、協調型マルチエージェントシステムにおける実証から専門家の行動を模倣する学習の課題である。
本稿では,これらの課題に対処する新しいマルチエージェントILアルゴリズムを提案する。
本手法は,分散Q関数の集約に混在するネットワークを活用することで,集中学習を実現する。
論文 参考訳(メタデータ) (2023-10-10T17:11:20Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Scalable Multi-Agent Reinforcement Learning through Intelligent
Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。
InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文 参考訳(メタデータ) (2022-11-03T20:02:45Z) - Bidirectional Contrastive Split Learning for Visual Question Answering [6.135215040323833]
マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
ひとつの課題は、さまざまなクライアントモデルのための堅牢な分散学習フレームワークを開発することです。
本稿では,分散化されたクライアントのデータ分散全体に対して,グローバルなマルチモーダルモデルをトレーニングするための双方向コントラスト分割学習(Bidirectional Contrastive Split Learning, BiCSL)を提案する。
論文 参考訳(メタデータ) (2022-08-24T11:01:47Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - MALib: A Parallel Framework for Population-based Multi-agent
Reinforcement Learning [61.28547338576706]
人口ベースマルチエージェント強化学習(PB-MARL)は、強化学習(RL)アルゴリズムでネストした一連の手法を指す。
PB-MARLのためのスケーラブルで効率的な計算フレームワークMALibを提案する。
論文 参考訳(メタデータ) (2021-06-05T03:27:08Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。