論文の概要: CORA: Coalitional Rational Advantage Decomposition for Multi-Agent Policy Gradients
- arxiv url: http://arxiv.org/abs/2506.04265v2
- Date: Wed, 18 Jun 2025 11:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.462185
- Title: CORA: Coalitional Rational Advantage Decomposition for Multi-Agent Policy Gradients
- Title(参考訳): CORA:マルチエージェント政策グラディエントのための連帯合理アドバンテージ分解
- Authors: Mengda Ji, Genjiu Xu, Liying Wang,
- Abstract要約: 本研究は、協調型マルチエージェント強化学習(MARL)における信用割当問題に焦点をあてる。
我々は、Coalitional Rational Advantage Decomposition (CORA)と呼ばれる信用割当手法を提案する。
行列ゲーム、ディファレンシャルゲーム、マルチエージェントコラボレーションベンチマークの実験は、CORAが強いベースラインより優れていることを示した。
- 参考スコア(独自算出の注目度): 1.1592964544667297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on the credit assignment problem in cooperative multi-agent reinforcement learning (MARL). Sharing the global advantage among agents often leads to suboptimal policy updates as it fails to account for the distinct contributions of agents. Although numerous methods consider global or individual contributions for credit assignment, a detailed analysis at the coalition level remains lacking in many approaches. This work analyzes the over-updating problem during multi-agent policy updates from a coalition-level perspective. To address this issue, we propose a credit assignment method called Coalitional Rational Advantage Decomposition (CORA). CORA evaluates coalitional advantages via marginal contributions from all possible coalitions and decomposes advantages using the core solution from cooperative game theory, ensuring coalitional rationality. To reduce computational overhead, CORA employs random coalition sampling. Experiments on matrix games, differential games, and multi-agent collaboration benchmarks demonstrate that CORA outperforms strong baselines, particularly in tasks with multiple local optima. These findings highlight the importance of coalition-aware credit assignment for improving MARL performance.
- Abstract(参考訳): 本研究は、協調型マルチエージェント強化学習(MARL)における信用割当問題に焦点を当てる。
エージェント間でグローバルな優位性を共有することは、エージェントの異なる貢献を説明できないため、しばしば最適化されたポリシー更新につながる。
クレジット・アサインに対するグローバルな貢献や個人的貢献を多くの手法が考慮しているが、連立レベルでの詳細な分析は多くのアプローチで欠落している。
この研究は、連立レベルでのマルチエージェントポリシー更新における過度な問題を分析する。
この問題に対処するため,Coalitional Rational Advantage Decomposition (CORA) と呼ばれる信用割当手法を提案する。
CORAは、全ての可能な連立の限界的な貢献を通じて連立の利点を評価し、協調ゲーム理論のコアソリューションを用いて、連立の合理性を確保する。
計算オーバーヘッドを低減するため、CORAはランダムな連成サンプリングを採用している。
行列ゲーム、ディファレンシャルゲーム、マルチエージェントコラボレーションベンチマークの実験は、CORAが特に複数の局所最適タスクにおいて、強いベースラインよりも優れていることを示した。
これらの知見は,MARL性能向上のための連立信用割当の重要性を浮き彫りにした。
関連論文リスト
- Nucleolus Credit Assignment for Effective Coalitions in Multi-agent Reinforcement Learning [13.220552085613292]
協調型マルチエージェント強化学習(MARL)では、エージェントは一般的に、複合タスクに取り組むためのクレジット割り当てに基づいて、単一の大連立を形成する。
本稿では,協調ゲーム理論に基づくヌクレオルスに基づくクレジット割り当てを提案し,エージェントを小さな連立に自律的に分割することを可能にする。
論文 参考訳(メタデータ) (2025-03-01T07:01:58Z) - Reducing Optimism Bias in Incomplete Cooperative Games [0.0]
協調ゲームにおける連立価値を明らかにするためのシーケンスの最適化を目的としたフレームワークを提案する。
筆者らのコントリビューションは3つある: (i) 個々のプレイヤーの楽観的な連立価値の達成と、より効率的な最適化を促進するための分析的特性について検討し、 (ii) オフライン・オンライン両方の方法で追加連立価値を開示し、このギャップを最小限に抑える方法、 (iii) 実践シナリオにおけるアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2024-02-02T21:58:26Z) - Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Learning Cooperative Multi-Agent Policies with Partial Reward Decoupling [13.915157044948364]
マルチエージェント強化学習をスケールする上で重要な障害の1つは、個々のエージェントの行動にクレジットを割り当てることである。
本稿では,このクレジット代入問題に対して,PRD(textitpartial reward decoupling)と呼ぶアプローチで対処する。
PRDは、大規模な協調的マルチエージェントRL問題を、エージェントのサブセットを含む分離されたサブプロブレムに分解し、クレジット割り当てを単純化する。
論文 参考訳(メタデータ) (2021-12-23T17:48:04Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。