論文の概要: Learning Strategic Value and Cooperation in Multi-Player Stochastic
Games through Side Payments
- arxiv url: http://arxiv.org/abs/2303.05307v1
- Date: Thu, 9 Mar 2023 14:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:32:40.559638
- Title: Learning Strategic Value and Cooperation in Multi-Player Stochastic
Games through Side Payments
- Title(参考訳): サイドペイメントによるマルチプレイヤー確率ゲームにおける戦略的価値と協調の学習
- Authors: Alan Kuhnle, Jeffrey Richley, Darleen Perez-Lavin
- Abstract要約: 一般のサム、n-プレイヤ、移動可能なユーティリティを持つ戦略ゲームの場合、Harsanyi-Shapley値は、1)プレイヤーの戦略的価値を定量化するための計算可能な方法であり、2)サイドペイメントを通じて協力を合理的にする。
正規形式ゲームにおけるHS値を計算するための簡単な公式を与える。
- 参考スコア(独自算出の注目度): 13.836565669337059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For general-sum, n-player, strategic games with transferable utility, the
Harsanyi-Shapley value provides a computable method to both 1) quantify the
strategic value of a player; and 2) make cooperation rational through side
payments. We give a simple formula to compute the HS value in normal-form
games. Next, we provide two methods to generalize the HS values to stochastic
(or Markov) games, and show that one of them may be computed using generalized
Q-learning algorithms. Finally, an empirical validation is performed on
stochastic grid-games with three or more players. Source code is provided to
compute HS values for both the normal-form and stochastic game setting.
- Abstract(参考訳): 一般のsum, n-player, strategy game with transferable utility に対して、Harsanyi-Shapley値はどちらも計算可能な方法を提供する。
1) プレーヤーの戦略的価値を定量化すること,及び
2) サイドペイメントによる協力を合理的にすること。
正規形式ゲームにおけるHS値を計算するための簡単な公式を与える。
次に、HS値を確率(マルコフ)ゲームに一般化する2つの方法を提案し、そのうちの1つは一般化Q-ラーニングアルゴリズムを用いて計算可能であることを示す。
最後に、3人以上のプレイヤーによる確率的グリッドゲームで実証検証を行う。
正規形式と確率ゲーム設定の両方のHS値を計算するためにソースコードが提供される。
関連論文リスト
- Finite-Sample Guarantees for Best-Response Learning Dynamics in Zero-Sum Matrix Games [22.380293155135096]
2人のプレイヤーゼロサム行列ゲームに対する最適応答型学習ダイナミクスについて検討する。
我々は,各プレイヤーがゲームと相手の戦略について持っている情報の種類によって区別される2つの設定について検討する。
論文 参考訳(メタデータ) (2024-07-29T15:56:49Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Learning in Multi-Player Stochastic Games [1.0878040851638]
有限ホライズン設定において、多くのプレイヤーとゲームにおける同時学習の問題を考える。
ゲームの典型的な対象解はナッシュ均衡であるが、これは多くのプレイヤーにとって難解である。
我々は異なるターゲットに目を向ける:全てのプレイヤーが使用するときの平衡を生成するアルゴリズム。
論文 参考訳(メタデータ) (2022-10-25T19:02:03Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Provably Efficient Policy Gradient Methods for Two-Player Zero-Sum
Markov Games [95.70078702838654]
本論文では,自然政策グラディエントアルゴリズムの自然拡張について検討する。
我々は,サンプル数,反復数,集中係数,近似誤差の観点から,アルゴリズムの性能を徹底的に評価する。
論文 参考訳(メタデータ) (2021-02-17T17:49:57Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。