論文の概要: A Policy Resonance Approach to Solve the Problem of Responsibility
Diffusion in Multiagent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.07753v3
- Date: Tue, 5 Dec 2023 03:37:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:42:06.203955
- Title: A Policy Resonance Approach to Solve the Problem of Responsibility
Diffusion in Multiagent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における責任拡散問題の解決のための政策共鳴アプローチ
- Authors: Qingxu Fu, Tenghai Qiu, Jianqiang Yi, Zhiqiang Pu, Xiaolin Ai, Wanmai
Yuan
- Abstract要約: 単一エージェント探索探索戦略を単一エージェントアルゴリズムから必然的に継承することは、潜在的なコラボレーションの失敗を引き起こす。
我々はこの問題を責任拡散(RD)と呼び、同名の社会心理学効果と類似点を共有している。
我々は,複雑な協調作業におけるエージェントの協調的性能を促進するために,SOTAアルゴリズムがこのアプローチを適用可能であることを示す。
- 参考スコア(独自算出の注目度): 9.303181273699417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SOTA multiagent reinforcement algorithms distinguish themselves in many ways
from their single-agent equivalences. However, most of them still totally
inherit the single-agent exploration-exploitation strategy. Naively inheriting
this strategy from single-agent algorithms causes potential collaboration
failures, in which the agents blindly follow mainstream behaviors and reject
taking minority responsibility. We name this problem the Responsibility
Diffusion (RD) as it shares similarities with a same-name social psychology
effect. In this work, we start by theoretically analyzing the cause of this RD
problem, which can be traced back to the exploration-exploitation dilemma of
multiagent systems (especially large-scale multiagent systems). We address this
RD problem by proposing a Policy Resonance (PR) approach which modifies the
collaborative exploration strategy of agents by refactoring the joint agent
policy while keeping individual policies approximately invariant. Next, we show
that SOTA algorithms can equip this approach to promote the collaborative
performance of agents in complex cooperative tasks. Experiments are performed
in multiple test benchmark tasks to illustrate the effectiveness of this
approach.
- Abstract(参考訳): sotaマルチエージェント強化アルゴリズムは、その単一エージェント等価性から多くの点で自己を区別する。
しかし、その多くは単独の探査・探査戦略を完全に継承している。
単一エージェントアルゴリズムからこの戦略を無意識に継承することは、潜在的にコラボレーションの失敗を引き起こし、エージェントは主流の行動に盲目的に従い、少数派の責任を負うことを拒否する。
我々はこの問題を責任拡散(RD)と呼び、同名の社会心理学効果と類似性を共有する。
本研究では,このRD問題の原因を理論的に解析し,マルチエージェントシステム(特に大規模マルチエージェントシステム)の探索・探索ジレンマに遡ることができる。
本稿では,政策共振(pr)アプローチを提案し,協調エージェント政策をリファクタリングし,個々の政策をほぼ不変に保ちながらエージェントの協調的探索戦略を変更する。
次に,複雑な協調作業におけるエージェントの協調性能向上にsotaアルゴリズムを応用できることを示す。
実験は複数のテストベンチマークタスクで行われ、このアプローチの有効性を説明する。
関連論文リスト
- Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks [51.00472376469131]
多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-03-01T08:15:18Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Deep Multi-Agent Reinforcement Learning for Decentralized Active
Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。
エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文 参考訳(メタデータ) (2023-09-14T01:18:04Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。