論文の概要: Dual Self-Awareness Value Decomposition Framework without Individual
Global Max for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.02180v2
- Date: Wed, 17 May 2023 03:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 20:17:59.628709
- Title: Dual Self-Awareness Value Decomposition Framework without Individual
Global Max for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための個別グローバルマックスを伴わない二重自己認識値分解フレームワーク
- Authors: Zhiwei Xu, Bin Zhang, Dapeng Li, Guangchong Zhou, Zeren Zhang,
Guoliang Fan
- Abstract要約: 心理学における二重自己認識の概念に着想を得た二重自己認識価値分解フレームワークを提案する。
IGMを含まない最初の完全値分解法として,本提案手法は様々な協調作業において望ましい性能を実現する。
- 参考スコア(独自算出の注目度): 12.74348597962689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value decomposition methods have gained popularity in the field of
cooperative multi-agent reinforcement learning. However, almost all existing
methods follow the principle of Individual Global Max (IGM) or its variants,
which limits their problem-solving capabilities. To address this, we propose a
dual self-awareness value decomposition framework, inspired by the notion of
dual self-awareness in psychology, that entirely rejects the IGM premise. Each
agent consists of an ego policy for action selection and an alter ego value
function to solve the credit assignment problem. The value function
factorization can ignore the IGM assumption by utilizing an explicit search
procedure. On the basis of the above, we also suggest a novel anti-ego
exploration mechanism to avoid the algorithm becoming stuck in a local optimum.
As the first fully IGM-free value decomposition method, our proposed framework
achieves desirable performance in various cooperative tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習の分野では,値分解手法が普及している。
しかしながら、既存の方法のほとんどすべてが、個々のグローバルマックス(igm)またはその変種(問題解決能力を制限する)の原則に従っている。
これを解決するために、心理学における二重自己認識の概念に着想を得た二重自己認識価値分解フレームワークを提案する。
各エージェントは、クレジット割り当て問題を解決するためのアクション選択のためのegoポリシーと、変更されたego値関数からなる。
値関数因子化は明示的な探索手順を用いてigmの仮定を無視することができる。
また,提案手法は,アルゴリズムが局所的な最適値に収まらないよう,新たなアンチエゴ探索機構を提案する。
IGMを含まない最初の完全値分解法として,提案手法は様々な協調作業において望ましい性能を実現する。
関連論文リスト
- Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。