論文の概要: Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and
Value
- arxiv url: http://arxiv.org/abs/2311.00582v1
- Date: Wed, 1 Nov 2023 15:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:03:34.141255
- Title: Minimally Modifying a Markov Game to Achieve Any Nash Equilibrium and
Value
- Title(参考訳): ナッシュ平衡と値を達成するためにマルコフゲームを最小限に修正する
- Authors: Young Wu, Jeremy McMahan, Yiding Chen, Yudong Chen, Xiaojin Zhu,
Qiaomin Xie
- Abstract要約: 本稿では,ゲームデザイナや悪意ある相手がゼロサムマルコフゲームの報酬関数を変更するゲーム修正問題について検討する。
我々は、あるゲームのユニークな平衡としてインストールできるポリシープロファイルの集合を特徴づける。
- 参考スコア(独自算出の注目度): 16.606082870373704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the game modification problem, where a benevolent game designer or a
malevolent adversary modifies the reward function of a zero-sum Markov game so
that a target deterministic or stochastic policy profile becomes the unique
Markov perfect Nash equilibrium and has a value within a target range, in a way
that minimizes the modification cost. We characterize the set of policy
profiles that can be installed as the unique equilibrium of some game, and
establish sufficient and necessary conditions for successful installation. We
propose an efficient algorithm, which solves a convex optimization problem with
linear constraints and then performs random perturbation, to obtain a
modification plan with a near-optimal cost.
- Abstract(参考訳): 本研究は,ゼロサムマルコフゲームの報奨機能を好意的ゲームデザイナーまたは好意的敵が修正することにより,目標決定論的又は確率的ポリシープロファイルがユニークなマルコフ完全ナッシュ均衡となり,目標範囲内での値を有するように修正コストを最小化するゲーム修正問題について検討する。
我々は,あるゲームのユニークな均衡としてインストール可能な一連のポリシープロファイルを特徴付け,インストール成功に必要な十分かつ必要な条件を確立する。
線形制約で凸最適化問題を解き、次にランダムな摂動を行い、ほぼ最適コストで修正計画を得る効率的なアルゴリズムを提案する。
関連論文リスト
- Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Regularized Gradient Descent Ascent for Two-Player Zero-Sum Markov Games [16.09467599829253]
本研究では,2プレーヤゼロサムゲームにおけるナッシュ平衡を求める問題について検討する。
我々の主な貢献は、正規化パラメータの適切な選択の下で、勾配が元の非正規化問題のナッシュ平衡に傾くことを示すことである。
論文 参考訳(メタデータ) (2022-05-27T03:24:12Z) - Towards General Function Approximation in Zero-Sum Markov Games [126.58493169301012]
本稿では,同時移動を伴う2プレーヤゼロサム有限ホライゾンマルコフゲームについて考察する。
分離された設定とコーディネートされた設定の両方の効率的なアルゴリズムが開発されている。
論文 参考訳(メタデータ) (2021-07-30T15:25:13Z) - Almost Optimal Algorithms for Two-player Markov Games with Linear
Function Approximation [92.99933928528797]
同時動作による2プレイヤーゼロサムマルコフゲームの強化学習について検討した。
我々は,「不確かさの最適性」に基づくアルゴリズムナッシュ-UCRL-VTRを提案する。
我々は、Nash-UCRL-VTR が $tildeO(dHsqrtT)$ regret を確実に達成できることを示し、$d$ は線型関数次元である。
論文 参考訳(メタデータ) (2021-02-15T09:09:16Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。