論文の概要: CFR-MIX: Solving Imperfect Information Extensive-Form Games with
Combinatorial Action Space
- arxiv url: http://arxiv.org/abs/2105.08440v1
- Date: Tue, 18 May 2021 11:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:00:55.062993
- Title: CFR-MIX: Solving Imperfect Information Extensive-Form Games with
Combinatorial Action Space
- Title(参考訳): CFR-MIX: Combinatorial Action Spaceによる不完全な情報集約型ゲームの解決
- Authors: Shuxin Li, Youzhi Zhang, Xinrun Wang, Wanqi Xue, Bo An
- Abstract要約: 多くの現実世界のシナリオでは、エージェントのチームが互いに調整し、対戦相手と競う。
このタイプのゲームの課題は、チームの共同アクション空間がエージェントの数とともに指数関数的に増加することである。
CFR:CFR-MIXの新たな枠組みを提案します。CFR-MIXは、すべてのエージェントの個々の戦略を使用して共同行動戦略を表します。
- 参考スコア(独自算出の注目度): 36.47139939784513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world scenarios, a team of agents coordinate with each other to
compete against an opponent. The challenge of solving this type of game is that
the team's joint action space grows exponentially with the number of agents,
which results in the inefficiency of the existing algorithms, e.g.,
Counterfactual Regret Minimization (CFR). To address this problem, we propose a
new framework of CFR: CFR-MIX. Firstly, we propose a new strategy
representation that represents a joint action strategy using individual
strategies of all agents and a consistency relationship to maintain the
cooperation between agents. To compute the equilibrium with individual
strategies under the CFR framework, we transform the consistency relationship
between strategies to the consistency relationship between the cumulative
regret values. Furthermore, we propose a novel decomposition method over
cumulative regret values to guarantee the consistency relationship between the
cumulative regret values. Finally, we introduce our new algorithm CFR-MIX which
employs a mixing layer to estimate cumulative regret values of joint actions as
a non-linear combination of cumulative regret values of individual actions.
Experimental results show that CFR-MIX outperforms existing algorithms on
various games significantly.
- Abstract(参考訳): 多くの現実世界のシナリオでは、エージェントのチームが互いに調整し、対戦相手と競う。
このタイプのゲーム解決の課題は、チームの共同アクションスペースがエージェント数で指数関数的に増大し、既存のアルゴリズム、例えば、反事実後悔最小化(cfr)の非効率化につながることである。
そこで本研究では,CFRの新しいフレームワークであるCFR-MIXを提案する。
まず,各エージェントの個別戦略を用いた共同行動戦略と,エージェント間の協調を維持するための一貫性関係を示す新しい戦略表現を提案する。
cfrフレームワークの下で個々の戦略との均衡を計算するために,戦略間の一貫性関係を累積後悔値間の一貫性関係に変換する。
さらに, 累積的後悔値に対する新しい分解法を提案し, 累積的後悔値間の整合性関係を保証する。
最後に, 混合層を用いた新しいアルゴリズムCFR-MIXを導入し, 個別動作の累積後悔値の非線形結合として, 共同動作の累積後悔値を推定する。
実験の結果,CFR-MIXは様々なゲームにおいて既存のアルゴリズムよりも優れていた。
関連論文リスト
- POWQMIX: Weighted Value Factorization with Potentially Optimal Joint Actions Recognition for Cooperative Multi-Agent Reinforcement Learning [17.644279061872442]
値関数分解法は、協調型マルチエージェント強化学習において一般的に用いられる。
本稿では, 潜在的に最適な関節動作を認識し, トレーニング中の損失により高い重みを割り当てるPOWQmix(Possally Optimal Joint Actions Weighted Qmix)アルゴリズムを提案する。
行列ゲーム,難易度の高い捕食者前処理,およびStarCraft II Multi-Agent Challenge環境における実験により,我々のアルゴリズムは最先端の値に基づくマルチエージェント強化学習法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-13T03:27:35Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Clustered Multi-Agent Linear Bandits [5.893124686141782]
クラスタ化多重エージェント線形バンドイットと呼ばれる,マルチエージェント線形バンドイット問題の特定の事例に対処する。
本稿では,エージェント間の効率的な協調を利用して最適化問題を高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-15T19:01:42Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Federated Distributionally Robust Optimization for Phase Configuration
of RISs [106.4688072667105]
我々は、教師付き学習環境において、多種多様なRISタイプ上での堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。
異種RIS設計上のダウンリンク通信を分散的に位相構成を最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を解決することができる。
提案アルゴリズムは, 競合するベースラインと比較して, 最悪の分布精度を実現するために, 通信ラウンドを少なくする必要がある。
論文 参考訳(メタデータ) (2021-08-20T07:07:45Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z) - RLCFR: Minimize Counterfactual Regret by Deep Reinforcement Learning [15.126468724917288]
本稿では,CFR法の一般化能力の向上を目的としたRCCFRフレームワークを提案する。
RLCFRでは、強化学習フレームワークにおいて、CFRによってゲーム戦略が解決される。
提案手法であるRCCFRは,繰り返し更新の過程において,適切な後悔の方法を選択するためのポリシーを学習する。
論文 参考訳(メタデータ) (2020-09-10T14:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。