論文の概要: Constructive Conflict-Driven Multi-Agent Reinforcement Learning for Strategic Diversity
- arxiv url: http://arxiv.org/abs/2509.14276v2
- Date: Fri, 26 Sep 2025 02:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.638845
- Title: Constructive Conflict-Driven Multi-Agent Reinforcement Learning for Strategic Diversity
- Title(参考訳): 戦略的多様性のためのコンストラクティブ・コンフリクト駆動型マルチエージェント強化学習
- Authors: Yuxiang Mai, Qiyue Yin, Wancheng Ni, Pei Xu, Kaiqi Huang,
- Abstract要約: コンストラクティブ・コンフリクト(CoDiCon)は,競争インセンティブを協調シナリオに組み込んだ新しいアプローチである。
中央固有の報酬モジュールは、様々な報酬値を生成し、エージェントに分配し、競争と協力の効果的なバランスを確保する。
実験により,CoDiConは,多様かつ適応的な戦略を効果的に推進する競争本質的な報奨によって,優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 27.335624335134018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, diversity has emerged as a useful mechanism to enhance the efficiency of multi-agent reinforcement learning (MARL). However, existing methods predominantly focus on designing policies based on individual agent characteristics, often neglecting the interplay and mutual influence among agents during policy formation. To address this gap, we propose Competitive Diversity through Constructive Conflict (CoDiCon), a novel approach that incorporates competitive incentives into cooperative scenarios to encourage policy exchange and foster strategic diversity among agents. Drawing inspiration from sociological research, which highlights the benefits of moderate competition and constructive conflict in group decision-making, we design an intrinsic reward mechanism using ranking features to introduce competitive motivations. A centralized intrinsic reward module generates and distributes varying reward values to agents, ensuring an effective balance between competition and cooperation. By optimizing the parameterized centralized reward module to maximize environmental rewards, we reformulate the constrained bilevel optimization problem to align with the original task objectives. We evaluate our algorithm against state-of-the-art methods in the SMAC and GRF environments. Experimental results demonstrate that CoDiCon achieves superior performance, with competitive intrinsic rewards effectively promoting diverse and adaptive strategies among cooperative agents.
- Abstract(参考訳): 近年,多エージェント強化学習(MARL)の効率化に有効なメカニズムとして多様性が出現している。
しかし、既存の手法は主に個々のエージェントの特徴に基づくポリシーの設計に重点を置いており、政策形成中のエージェント間の相互作用や相互の影響を無視することが多い。
このギャップに対処するため,コンストラクティブ・コンフリクト(CoDiCon)という,競争インセンティブを協調的なシナリオに組み込んだ新たなアプローチを提案し,政策交換を促進し,エージェント間の戦略的多様性を育成する。
集団意思決定における適度な競争と建設的対立の利点を浮き彫りにした社会学研究からインスピレーションを得て,ランキング機能を用いた本質的な報酬メカニズムを設計し,競争モチベーションを導入する。
集中型固有報酬モジュールは、様々な報酬値を生成し、エージェントに分配し、競争と協力の効果的なバランスを確保する。
パラメータ化された集中型報酬モジュールを最適化して環境報酬を最大化することにより、制約付き二段階最適化問題を元のタスク目標に合わせるように再構成する。
我々は,SMACおよびGRF環境における最先端手法に対するアルゴリズムの評価を行った。
実験の結果,CoDiConは,協調エージェント間の多種多様な適応戦略を効果的に促進する競争本質的な報酬によって,優れた性能を発揮することが示された。
関連論文リスト
- Enhancing Multi-Agent Collaboration with Attention-Based Actor-Critic Policies [0.0]
Team-Attention-Actor-Critic (TAAC)は、協調環境におけるマルチエージェントコラボレーションを強化するために設計された学習アルゴリズムである。
シミュレーションサッカー環境におけるTAACをベンチマークアルゴリズムを用いて評価する。
論文 参考訳(メタデータ) (2025-07-30T15:48:38Z) - Achieving Collective Welfare in Multi-Agent Reinforcement Learning via Suggestion Sharing [12.167248367980449]
自己利益と集団福祉の対立は、しばしば共有福祉を達成する努力を妨げる。
この問題に対処する新しいマルチエージェント強化学習法(MARL)を提案する。
報酬、価値、ポリシーを共有する従来の協調型MARLソリューションとは異なり、エージェントがアクション提案を交換する新しいMARLアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-16T19:44:44Z) - Role Play: Learning Adaptive Role-Specific Strategies in Multi-Agent Interactions [8.96091816092671]
emphRole Play (RP) という新しいフレームワークを提案する。
RPは、政策の多様性の課題を、より管理可能な役割の多様性に変えるために役割埋め込みを採用している。
ロール埋め込み観察で共通の方針を訓練し、他のエージェントのジョイントロール埋め込みを推定するためにロール予測器を使用し、学習エージェントが割り当てられた役割に適応するのを助ける。
論文 参考訳(メタデータ) (2024-11-02T07:25:48Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Quantifying Agent Interaction in Multi-agent Reinforcement Learning for
Cost-efficient Generalization [63.554226552130054]
マルチエージェント強化学習(MARL)における一般化の課題
エージェントが未確認のコプレイヤーに影響される程度は、エージェントのポリシーと特定のシナリオに依存する。
与えられたシナリオと環境におけるエージェント間の相互作用強度を定量化する指標であるLoI(Level of Influence)を提示する。
論文 参考訳(メタデータ) (2023-10-11T06:09:26Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - A Deep Reinforcement Learning Approach to Marginalized Importance
Sampling with the Successor Representation [61.740187363451746]
マージナライズド・プライバシ・サンプリング(MIS)は、ターゲットポリシーのステートアクション占有率とサンプリング分布の密度比を測定する。
我々は,MISと深層強化学習のギャップを,目標方針の後継表現から密度比を計算することによって埋める。
我々は,Atari環境とMuJoCo環境に対するアプローチの実証的性能を評価した。
論文 参考訳(メタデータ) (2021-06-12T20:21:38Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。