論文の概要: On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2111.05992v1
- Date: Wed, 10 Nov 2021 23:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 13:30:30.749045
- Title: On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習における吸収状態の利用と誤用について
- Authors: Andrew Cohen and Ervin Teng and Vincent-Pierre Berges and Ruo-Ping
Dong and Hunter Henry and Marwan Mattar and Alexander Zook and Sujoy Ganguly
- Abstract要約: 現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 55.95253619768565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The creation and destruction of agents in cooperative multi-agent
reinforcement learning (MARL) is a critically under-explored area of research.
Current MARL algorithms often assume that the number of agents within a group
remains fixed throughout an experiment. However, in many practical problems, an
agent may terminate before their teammates. This early termination issue
presents a challenge: the terminated agent must learn from the group's success
or failure which occurs beyond its own existence. We refer to propagating value
from rewards earned by remaining teammates to terminated agents as the
Posthumous Credit Assignment problem. Current MARL methods handle this problem
by placing these agents in an absorbing state until the entire group of agents
reaches a termination condition. Although absorbing states enable existing
algorithms and APIs to handle terminated agents without modification, practical
training efficiency and resource use problems exist.
In this work, we first demonstrate that sample complexity increases with the
quantity of absorbing states in a toy supervised learning task for a fully
connected network, while attention is more robust to variable size input. Then,
we present a novel architecture for an existing state-of-the-art MARL algorithm
which uses attention instead of a fully connected layer with absorbing states.
Finally, we demonstrate that this novel architecture significantly outperforms
the standard architecture on tasks in which agents are created or destroyed
within episodes as well as standard multi-agent coordination tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)におけるエージェントの生成と破壊は、重要な研究分野である。
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定することが多い。
しかし、多くの実用的な問題において、エージェントはチームメイトの前に終了することができる。
停止したエージェントは、自身の存在を超えて起こるグループの成功や失敗から学ぶ必要がある。
我々は、死後のクレジット割り当て問題として、残りのチームメイトが得た報酬からターミネートエージェントへの価値の伝達について言及する。
現在のMARL法は、エージェント群全体が終了状態に達するまでこれらのエージェントを吸収状態に配置することでこの問題に対処する。
吸収状態は、既存のアルゴリズムやAPIで修正することなく終了エージェントを処理できるが、実際の訓練効率とリソース使用の問題が存在する。
本研究は,完全連結ネットワークにおける玩具教師あり学習課題における吸収状態の量によって,サンプルの複雑さが増大するのに対して,注意は可変サイズ入力に対してより堅牢であることを示す。
そこで本研究では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
最後に,この新たなアーキテクチャは,エージェントがエピソード内で生成あるいは破棄されるタスクや,標準的なマルチエージェント・コーディネーションタスクにおいて,標準的なアーキテクチャを大幅に上回っていることを実証する。
関連論文リスト
- Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - An Algorithm For Adversary Aware Decentralized Networked MARL [0.0]
既存のMARLアルゴリズムのコンセンサス更新に脆弱性を導入する。
我々は,非敵エージェントが敵の存在下で合意に達することを可能にするアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-05-09T16:02:31Z) - ACE: Cooperative Multi-agent Q-learning with Bidirectional
Action-Dependency [65.28061634546577]
マルチエージェント強化学習(MARL)は非定常性問題に悩まされる。
本稿では,双方向行動依存型Q-ラーニング(ACE)を提案する。
ACEは、Google Research FootballとStarCraft Multi-Agent Challengeで最先端のアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2022-11-29T10:22:55Z) - Scalable Multi-Agent Reinforcement Learning through Intelligent
Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。
InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文 参考訳(メタデータ) (2022-11-03T20:02:45Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Information State Embedding in Partially Observable Cooperative
Multi-Agent Reinforcement Learning [19.617644643147948]
エージェントの履歴を圧縮する情報状態埋め込みの概念を導入する。
圧縮誤差が分散制御における結果値関数にどのように影響するかを定量化する。
提案された組込み学習パイプラインは、既存の(部分的に観測可能な)MARLアルゴリズムのブラックボックスを開く。
論文 参考訳(メタデータ) (2020-04-02T16:03:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。