論文の概要: Dual Self-Awareness Value Decomposition Framework without Individual
Global Max for Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.02180v1
- Date: Sat, 4 Feb 2023 15:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:48:38.391301
- Title: Dual Self-Awareness Value Decomposition Framework without Individual
Global Max for Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習のための個別グローバルマックスを伴わない二重自己認識値分解フレームワーク
- Authors: Zhiwei Xu, Bin Zhang, Dapeng Li, Guangchong Zhou, Zeren Zhang,
Guoliang Fan
- Abstract要約: 本稿では,IGM(Personal Global Max)の前提を完全に否定する自己認識値分解フレームワークを提案する。
IGMを含まない最初の完全値分解法として,本提案手法は様々な協調作業において望ましい性能を実現する。
- 参考スコア(独自算出の注目度): 12.74348597962689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value decomposition methods have gradually become popular in the cooperative
multi-agent reinforcement learning field. However, almost all value
decomposition methods follow the Individual Global Max (IGM) principle or its
variants, which restricts the range of issues that value decomposition methods
can resolve. Inspired by the notion of dual self-awareness in psychology, we
propose a dual self-awareness value decomposition framework that entirely
rejects the IGM premise. Each agent consists of an ego policy that carries out
actions and an alter ego value function that takes part in credit assignment.
The value function factorization can ignore the IGM assumption by using an
explicit search procedure. We also suggest a novel anti-ego exploration
mechanism to avoid the algorithm becoming stuck in a local optimum. As the
first fully IGM-free value decomposition method, our proposed framework
achieves desirable performance in various cooperative tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習分野では, 値分解法が徐々に普及している。
しかしながら、ほとんど全ての値分解法は、値分解法が解決できる問題の範囲を制限する、個人的グローバルマックス(IGM)原理またはその変種に従う。
心理学における二重自己認識の概念に着想を得て, IGMの前提を完全に否定する二重自己認識価値分解フレームワークを提案する。
各エージェントは、アクションを実行するegoポリシと、クレジット割り当てに参加する変更ego値関数で構成される。
値関数の分解は明示的な探索手順を用いてIMGの仮定を無視することができる。
また,アルゴリズムが局所的に最適になるのを避けるために,新たなエゴ探索機構を提案する。
IGMを含まない最初の完全値分解法として,提案手法は様々な協調作業において望ましい性能を実現する。
関連論文リスト
- Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - QFree: A Universal Value Function Factorization for Multi-Agent
Reinforcement Learning [2.287186762346021]
マルチエージェント強化学習のための共通値関数分解法QFreeを提案する。
汎用複雑なMARLベンチマーク環境において,QFreeが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-11-01T08:07:16Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。