論文の概要: Differentiable Arbitrating in Zero-sum Markov Games
- arxiv url: http://arxiv.org/abs/2302.10058v1
- Date: Mon, 20 Feb 2023 16:05:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 14:56:21.138428
- Title: Differentiable Arbitrating in Zero-sum Markov Games
- Title(参考訳): ゼロサムマルコフゲームにおける微分可能調停
- Authors: Jing Wang, Meichen Song, Feng Gao, Boyi Liu, Zhaoran Wang, Yi Wu
- Abstract要約: ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
- 参考スコア(独自算出の注目度): 59.62061049680365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We initiate the study of how to perturb the reward in a zero-sum Markov game
with two players to induce a desirable Nash equilibrium, namely arbitrating.
Such a problem admits a bi-level optimization formulation. The lower level
requires solving the Nash equilibrium under a given reward function, which
makes the overall problem challenging to optimize in an end-to-end way. We
propose a backpropagation scheme that differentiates through the Nash
equilibrium, which provides the gradient feedback for the upper level. In
particular, our method only requires a black-box solver for the (regularized)
Nash equilibrium (NE). We develop the convergence analysis for the proposed
framework with proper black-box NE solvers and demonstrate the empirical
successes in two multi-agent reinforcement learning (MARL) environments.
- Abstract(参考訳): 我々は,ゼロサムマルコフゲームにおいて,2人のプレイヤーが望ましいナッシュ均衡,すなわち調停を誘導するために,報酬をどのように摂動させるかの研究を開始する。
このような問題は二段階最適化の定式化を認める。
低いレベルでは、与えられた報酬関数の下でナッシュ均衡を解決する必要があるため、全体的な問題はエンドツーエンドで最適化することが困難になる。
我々は,nash平衡を通した逆伝播スキームを提案し,上層層への勾配フィードバックを提供する。
特に本手法は(正規化)nash平衡 (ne) に対してのみブラックボックス解法を必要とする。
ブラックボックスNEソルバを用いたフレームワークの収束解析を開発し、2つのマルチエージェント強化学習(MARL)環境での経験的成功を実証する。
関連論文リスト
- A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z) - Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games [16.09467599829253]
本研究では,2プレーヤゼロサムゲームにおけるナッシュ平衡を求める問題について検討する。
我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配が元の非正規化問題のナッシュ平衡に傾くことを示すことである。
論文 参考訳(メタデータ) (2022-05-27T03:24:12Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Linear Regression Games: Convergence Guarantees to Approximate
Out-of-Distribution Solutions [35.313551211453266]
本研究では,アンサンブルゲームに$ell_infty$の球体を投影することにより,線形回帰に対するAhuja et al.のフレームワークを拡張した。
このような予測は、完全な不変性を達成していないにもかかわらず、非自明なOOD保証を達成するのに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-28T21:10:24Z) - GANs May Have No Nash Equilibria [12.691047660244331]
GAN(Generative Adversarial Network)は、ジェネレータとディスクリミネータの2つのマシンプレーヤ間のゼロサムゲームを表す。
我々は、GANゼロサムゲームが局所的なナッシュ平衡を持たないかもしれないといういくつかの理論的および数値的な結果を示す。
我々は,GAN問題の解法として,近位学習と呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-21T04:30:05Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。