論文の概要: Solving the Diffusion of Responsibility Problem in Multiagent
Reinforcement Learning with a Policy Resonance Approach
- arxiv url: http://arxiv.org/abs/2208.07753v1
- Date: Tue, 16 Aug 2022 13:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-17 12:24:34.131536
- Title: Solving the Diffusion of Responsibility Problem in Multiagent
Reinforcement Learning with a Policy Resonance Approach
- Title(参考訳): 政策共鳴法を用いたマルチエージェント強化学習における責任分散問題の解法
- Authors: Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Xiaolin Ai, Wanmai
Yuan
- Abstract要約: 責任の拡散(DR:diffusion of Responsibility)は、責任の信頼性の高い分割を交渉する際に失敗を引き起こす。
このDR問題は、社会的心理学領域における同名現象と類似点を共有しており、傍観者効果としても知られている。
本稿では,マルチエージェント探索探索戦略を変更し,MARLアルゴリズムの性能向上を図るためのポリシ共振方式を提案する。
- 参考スコア(独自算出の注目度): 6.801749815385998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report a previously undiscovered problem in multiagent reinforcement
learning (MARL), named Diffusion of Responsibility (DR). DR causes failures in
negotiating a reliable division of responsibilities to complete sophisticated
cooperative tasks. It reflects a flaw in how existing algorithms deal with the
multiagent exploration-exploitation dilemma in both value-based and
policy-based MARL methods. This DR problem shares similarities with a same-name
phenomenon in the social psychology domain, also known as the bystander effect.
In this work, we start by theoretically analyzing the cause of the DR problem,
and we emphasize that the DR problem is not relevant to the reward shaping or
the credit assignment problems. To deal with the DR problem, we propose a
Policy Resonance method to change the multiagent exploration-exploitation
strategy and promote the performance of MARL algorithms in difficult MARL
tasks. This method can be equipped by most existing MARL algorithms to resolve
the performance degradation caused by the DR problem. Experiments are performed
in multiple test benchmark tasks, including FME, a diagnostic multiagent
environment, and ADCA, a competitive multiagent game. Finally, we implement the
Policy Resonance method on SOTA MARL algorithms to illustrate the effectiveness
of this approach.
- Abstract(参考訳): マルチエージェント強化学習(MARL, Diffusion of Responsibility, DDR)における未発見問題について報告する。
drは、信頼できる責任分担の交渉に失敗し、高度な協力作業が完了する。
これは、価値ベースとポリシーベースのmarlメソッドの両方において、既存のアルゴリズムがマルチエージェント探索-探索ジレンマを扱う方法の欠陥を反映している。
このDR問題は、社会的心理学領域における同名現象と類似点を共有している。
本研究は,dr問題の原因を理論的に解析することから始まり,dr問題は報酬形成やクレジット割当問題とは無関係であることを強調する。
DR問題に対処するため,マルチエージェント探索・探索戦略を変更し,困難なMARLタスクにおけるMARLアルゴリズムの性能向上を図るためのポリシ共振法を提案する。
この手法は、DR問題に起因する性能劣化を解決するため、既存のほとんどのMARLアルゴリズムによって実装することができる。
診断マルチエージェント環境であるFMEや、競合マルチエージェントゲームであるADCAなど、複数のテストベンチマークタスクで実験が行われる。
最後に,SOTA MARLアルゴリズムにポリシー共振法を実装し,本手法の有効性を示す。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。