Fugu-MT 論文翻訳(概要): Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers

論文の概要: Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers

arxiv url: http://arxiv.org/abs/2106.09435v1
Date: Thu, 17 Jun 2021 12:34:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-18 16:02:53.056782
Title: Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers
Title（参考訳）: 相関平衡メタソルバーを用いたゼロサムを超えるマルチエージェントトレーニング
Authors: Luke Marris, Paul Muller, Marc Lanctot, Karl Tuyls, Thore Grapael
Abstract要約: 本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。 JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
参考スコア（独自算出の注目度）: 14.048575909566813
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Two-player, constant-sum games are well studied in the literature, but there has been limited progress outside of this setting. We propose Joint Policy-Space Response Oracles (JPSRO), an algorithm for training agents in n-player, general-sum extensive form games, which provably converges to an equilibrium. We further suggest correlated equilibria (CE) as promising meta-solvers, and propose a novel solution concept Maximum Gini Correlated Equilibrium (MGCE), a principled and computationally efficient family of solutions for solving the correlated equilibrium selection problem. We conduct several experiments using CE meta-solvers for JPSRO and demonstrate convergence on n-player, general-sum games.
Abstract（参考訳）: 2人プレイのコンスタントサムゲームは文学でよく研究されているが、この設定以外での進展は限られている。我々は,n-player, general-sum extensive form gameにおけるエージェントのトレーニングアルゴリズムであるJoint Policy-Space Response Oracles (JPSRO)を提案する。さらに, 相関平衡 (ce) を有望なメタソルバとして提案し, 相関平衡選択問題を解くための原理的かつ計算効率の高い解群である, 新たな解概念であるmaximum gini correlationd equilibrium (mgce) を提案する。 JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。

関連論文リスト

Explore Reinforced: Equilibrium Approximation with Reinforcement Learning [3.214961078500366]
RLとゲーム理論を融合したExp3-IXrlを導入し、RLエージェントの作用選択を平衡から分離する。我々は,このアルゴリズムが平衡近似アルゴリズムを新しい環境に適用することを実証した。
論文参考訳（メタデータ） (2024-12-02T22:37:59Z)
Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文参考訳（メタデータ） (2024-01-10T12:56:24Z)
Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文参考訳（メタデータ） (2023-02-20T16:05:04Z)
Safe Subgame Resolving for Extensive Form Correlated Equilibrium [47.155175336085364]
相関平衡(Correlated Equilibrium)は、ナッシュ平衡(NE)よりも一般的な解概念であり、社会福祉の改善につながる。テキストサブゲーム解決は,ゼロサムゲームにおけるNEの発見に極めて成功した手法であり,一般サム EFCE の解法である。サブゲーム解決は、テキストトン方式で相関計画を洗練させる: ゲーム全体を前もって解決するのではなく、実際のプレイで到達したサブゲームにおける戦略のためにのみ解決する。
論文参考訳（メタデータ） (2022-12-29T14:20:48Z)
Turbocharging Solution Concepts: Solving NEs, CEs and CCEs with Neural Equilibrium Solvers [22.85979978964773]
Nash Equilibria、Correlated Equilibria、Coarse Correlated Equilibriaといったソリューション概念は多くのマルチエージェント機械学習アルゴリズムに有用なコンポーネントである。本稿では, ニューラルネットワークアーキテクチャを応用して, 固定形状, 購入速度, 決定性のすべてのゲームの空間を大まかに解決するニューラル平衡解法を提案する。
論文参考訳（メタデータ） (2022-10-17T17:00:31Z)
Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文参考訳（メタデータ） (2022-10-03T16:05:43Z)
Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning [18.20664209675016]
この研究は、競合しないマルチエージェントゲームにおける平衡選択に焦点を当てている。 Pareto Actor-Critic (Pareto-AC)は、すべてのエージェントのリターンを最大化するアクター批判アルゴリズムである。
論文参考訳（メタデータ） (2022-09-28T18:14:34Z)
Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation [78.48747645545944]
ワイドフォームゲームにおいて,様々な種類の最適平衡を求める問題について検討する。これら3つの概念のすべてに最適な平衡を計算するための新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2022-03-14T15:21:18Z)
Exploration-Exploitation in Multi-Agent Competition: Convergence with Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。 Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文参考訳（メタデータ） (2021-06-24T11:43:38Z)
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文参考訳（メタデータ） (2021-02-23T05:11:07Z)
Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文参考訳（メタデータ） (2020-12-10T18:30:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。