論文の概要: Agent-Temporal Attention for Reward Redistribution in Episodic
Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.04612v1
- Date: Wed, 12 Jan 2022 18:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-13 14:48:35.467004
- Title: Agent-Temporal Attention for Reward Redistribution in Episodic
Multi-Agent Reinforcement Learning
- Title(参考訳): エピソディック・マルチエージェント強化学習における報酬再分配に対するエージェント・時間的注意
- Authors: Baicen Xiao, Bhaskar Ramasubramanian, Radha Poovendran
- Abstract要約: 本稿では,報酬の時間的再分配を学習し,報酬信号の高密度化を実現する手法の開発に焦点をあてる。
本稿では,これら2つの課題に対処するために,エピソード型マルチエージェント強化学習(AREL)におけるリワード再分配のためのエージェント・テンポラル・アテンションを紹介する。
ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
- 参考スコア(独自算出の注目度): 9.084006156825632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers multi-agent reinforcement learning (MARL) tasks where
agents receive a shared global reward at the end of an episode. The delayed
nature of this reward affects the ability of the agents to assess the quality
of their actions at intermediate time-steps. This paper focuses on developing
methods to learn a temporal redistribution of the episodic reward to obtain a
dense reward signal. Solving such MARL problems requires addressing two
challenges: identifying (1) relative importance of states along the length of
an episode (along time), and (2) relative importance of individual agents'
states at any single time-step (among agents). In this paper, we introduce
Agent-Temporal Attention for Reward Redistribution in Episodic Multi-Agent
Reinforcement Learning (AREL) to address these two challenges. AREL uses
attention mechanisms to characterize the influence of actions on state
transitions along trajectories (temporal attention), and how each agent is
affected by other agents at each time-step (agent attention). The redistributed
rewards predicted by AREL are dense, and can be integrated with any given MARL
algorithm. We evaluate AREL on challenging tasks from the Particle World
environment and the StarCraft Multi-Agent Challenge. AREL results in higher
rewards in Particle World, and improved win rates in StarCraft compared to
three state-of-the-art reward redistribution methods. Our code is available at
https://github.com/baicenxiao/AREL.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(marl:multi-agent reinforcement learning)タスクについて考察する。
この報酬の遅れの性質は、エージェントの中間段階における行動の質を評価する能力に影響を及ぼす。
本稿では,報酬の時間的再分配を学習して報酬信号を求める手法の開発に焦点をあてる。
このようなmarl問題を解決するには,(1)エピソードの長さに沿った状態の相対的重要度(長い時間),(2)特定の時間ステップにおける個々のエージェントの状態の相対的重要度(平均的エージェント)の2つの課題に対処する必要がある。
本稿では,episodic multi-agent reinforcement learning (arel) における報酬分配に対するエージェント・テンポラルな注意点について紹介する。
ARELは注意機構を用いて、軌跡に沿った状態遷移に対する行動の影響(時間的注意)と、各時間的注意(エージェント注意)において各エージェントが他のエージェントにどのように影響するかを特徴づける。
ARELによって予測される再分散報酬は密集しており、任意のMARLアルゴリズムと統合することができる。
粒子世界環境とStarCraft Multi-Agent Challengeの課題に対するARELの評価を行った。
ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
私たちのコードはhttps://github.com/baicenxiao/arelで入手できます。
関連論文リスト
- Agent-Time Attention for Sparse Rewards Multi-Agent Reinforcement
Learning [36.93626032028901]
スパースと遅延した報酬は、単一のエージェント強化学習に挑戦する。
本稿では,スパースと遅延報酬を再分配するための補助的損失を持つニューラルネットワークモデルであるエージェント・タイム・アテンション(ATA)を提案する。
論文 参考訳(メタデータ) (2022-10-31T17:54:51Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z) - AoI-Aware Resource Allocation for Platoon-Based C-V2X Networks via
Multi-Agent Multi-Task Reinforcement Learning [22.890835786710316]
本稿は,小隊の無線リソース管理を意識した情報年齢(AoI)の問題について検討する。
複数の自律型プラトンは、C-V2X通信技術を利用して、協力的認識メッセージ(CAM)をフォロワーに広める。
我々は,マルチエージェント強化学習(marl)に基づく分散リソース割当フレームワークを活用し,各小隊リーダ(pl)がエージェントとして行動し,環境と相互作用して最適方針を学ぶ。
論文 参考訳(メタデータ) (2021-05-10T08:39:56Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Reward Design in Cooperative Multi-agent Reinforcement Learning for
Packet Routing [8.021402935358488]
パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。
上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。
我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
論文 参考訳(メタデータ) (2020-03-05T02:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。