論文の概要: Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies
- arxiv url: http://arxiv.org/abs/2105.03546v1
- Date: Sat, 8 May 2021 01:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 03:35:31.590832
- Title: Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies
- Title(参考訳): stigmergy と ant コロニーに触発されたスケーラブルな分散マルチエージェント強化学習法
- Authors: Austin Anhkhoi Nguyen
- Abstract要約: 分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bolstering multi-agent learning algorithms to tackle complex coordination and
control tasks has been a long-standing challenge of on-going research. Numerous
methods have been proposed to help reduce the effects of non-stationarity and
unscalability. In this work, we investigate a novel approach to decentralized
multi-agent learning and planning that attempts to address these two
challenges. In particular, this method is inspired by the cohesion,
coordination, and behavior of ant colonies. As a result, these algorithms are
designed to be naturally scalable to systems with numerous agents. While no
optimality is guaranteed, the method is intended to work well in practice and
scale better in efficacy with the number of agents present than others. The
approach combines single-agent RL and an ant-colony-inspired decentralized,
stigmergic algorithm for multi-agent path planning and environment
modification. Specifically, we apply this algorithm in a setting where agents
must navigate to a goal location, learning to push rectangular boxes into holes
to yield new traversable pathways. It is shown that while the approach yields
promising success in this particular environment, it may not be as easily
generalized to others. The algorithm designed is notably scalable to numerous
agents but is limited in its performance due to its relatively simplistic,
rule-based approach. Furthermore, the composability of RL-trained policies is
called into question, where, while policies are successful in their training
environments, applying trained policies to a larger-scale, multi-agent
framework results in unpredictable behavior.
- Abstract(参考訳): 複雑なコーディネーションと制御タスクに取り組むためにマルチエージェント学習アルゴリズムを強化することは、現在進行中の研究にとって長年の課題である。
非定常性と非スケーリング性の影響を低減するために多くの方法が提案されている。
本研究では,これら2つの課題に対処する分散型マルチエージェント学習と計画手法について検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
その結果、これらのアルゴリズムは多数のエージェントを持つシステムに自然に拡張できるように設計されている。
最適性は保証されていないが、この方法は実際にうまく機能し、他のエージェントよりも有効にスケールすることを目的としている。
このアプローチは、単一エージェントrlとant-colonyにインスパイアされた分散型スティグマ作動性アルゴリズムを組み合わせて、マルチエージェント経路計画と環境修正を行う。
具体的には、このアルゴリズムをエージェントがゴール位置までナビゲートし、矩形箱を穴に押し込んで新たなトラバーサブルパスを生成するように学習する設定に適用する。
このアプローチは、この特定の環境で有望な成功をもたらすが、他人にそれほど簡単に一般化できないことが示されている。
設計されたアルゴリズムは、多くのエージェントに対して特にスケーラブルであるが、比較的単純で規則に基づくアプローチのため、その性能に制限がある。
さらに、RLトレーニングされたポリシーの構成可能性についても疑問視され、トレーニング環境ではポリシーが成功する一方で、大規模でマルチエージェントなフレームワークにトレーニングされたポリシーを適用すると予測不可能な振る舞いが生じる。
関連論文リスト
- Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement
Learning [19.519440854957633]
本稿では,Robost Local Advantage (ROLA) Actor-Criticと呼ばれるマルチエージェントポリシー勾配法を提案する。
ROLAにより、各エージェントはローカルな批評家として個々のアクション値関数を学習し、環境の非定常性を改善することができる。
複数の最先端マルチエージェントポリシー勾配アルゴリズムに対して,ROLAの堅牢性と有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T19:03:34Z) - DSDF: An approach to handle stochastic agents in collaborative
multi-agent reinforcement learning [0.0]
ロボットの機能低下や老化によって引き起こされるエージェントの真偽が、協調の不確実性にどのように寄与するかを示す。
DSDFは不確実性に応じてエージェントの割引係数を調整し,その値を用いて個々のエージェントのユーティリティネットワークを更新する。
論文 参考訳(メタデータ) (2021-09-14T12:02:28Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Scalable Reinforcement Learning Policies for Multi-Agent Control [29.42370205354368]
目標追跡のためのスケーラブルな制御ポリシーを学習するためのマルチエージェント強化学習(MARL)手法を開発した。
最大1000人の追従者による1000の目標追跡タスクの結果を示す。
論文 参考訳(メタデータ) (2020-11-16T16:11:12Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。