論文の概要: Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria
- arxiv url: http://arxiv.org/abs/2602.12181v1
- Date: Thu, 12 Feb 2026 17:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.951851
- Title: Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria
- Title(参考訳): Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria
- Authors: Anas Barakat, Ioannis Panageas, Antonios Varvitsiotis,
- Abstract要約: GUMG(General Utility Markov Games)は、エージェントの占有率の結合を必要とする新しいアプリケーションをキャプチャする。
ナッシュ平衡は、新しいエージェントワイド勾配支配特性によって実現された投影された擬勾配力学の固定点(すなわち、一階定常点)と一致することを証明した。
この特徴に基づいて、GUMGのポリシー勾配定理を確立し、モデルフリーのポリシー勾配アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 20.875347023588652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convex Markov Games (cMGs) were recently introduced as a broad class of multi-agent learning problems that generalize Markov games to settings where strategic agents optimize general utilities beyond additive rewards. While cMGs expand the modeling frontier, their theoretical foundations, particularly the structure of Nash equilibria (NE) and guarantees for learning algorithms, are not yet well understood. In this work, we address these gaps for an extension of cMGs, which we term General Utility Markov Games (GUMGs), capturing new applications requiring coupling between agents' occupancy measures. We prove that in GUMGs, Nash equilibria coincide with the fixed points of projected pseudo-gradient dynamics (i.e., first-order stationary points), enabled by a novel agent-wise gradient domination property. This insight also yields a simple proof of NE existence using Brouwer's fixed-point theorem. We further show the existence of Markov perfect equilibria. Building on this characterization, we establish a policy gradient theorem for GUMGs and design a model-free policy gradient algorithm. For potential GUMGs, we establish iteration complexity guarantees for computing approximate-NE under exact gradients and provide sample complexity bounds in both the generative model and on-policy settings. Our results extend beyond prior work restricted to zero-sum cMGs, providing the first theoretical analysis of common-interest cMGs.
- Abstract(参考訳): Convex Markov Games (cMGs) は、Markovゲームから戦略エージェントが付加的な報酬を超えて汎用性を最適化する設定までを一般化する、多エージェント学習の幅広いクラスとして最近導入された。
cMGはモデリングフロンティアを拡大するが、その理論基盤、特にナッシュ均衡(NE)の構造と学習アルゴリズムの保証はまだ十分に理解されていない。
本稿では,これらのギャップを,エージェントの占有度を結合する必要のある新しいアプリケーションをキャプチャする一般ユーティリティマルコフゲーム(GUMG)と呼ばれる,cMGの拡張に対処する。
GUMGでは、ナッシュ平衡は、新しいエージェントワイド勾配支配特性によって実現された、投影された擬勾配力学の固定点(すなわち、一階定常点)と一致することを証明している。
この洞察はまた、ブラウワーの不動点定理を用いて NE の存在の簡単な証明を与える。
さらに、マルコフ完全平衡の存在を示す。
この特徴に基づいて、GUMGのポリシー勾配定理を確立し、モデルフリーのポリシー勾配アルゴリズムを設計する。
潜在的な GUMG に対して、正確な勾配の下で近似-NE を計算するための反復複雑性を保証するとともに、生成モデルとオン・ポリシー設定の両方においてサンプル複雑性境界を提供する。
我々の結果は、ゼロサムcMGに制限された先行研究を超えて、共通の関心を持つcMGに関する最初の理論的分析を提供する。
関連論文リスト
- Achieving Logarithmic Regret in KL-Regularized Zero-Sum Markov Games [53.447182734351]
Reverse Kullback-Leibler (KL) 正則化の下で, サンプル効率の向上を実現するアルゴリズムを開発し, 解析する。
我々は,2プレイヤーゼロサムマトリクスゲームとマルコフゲームの両方について検討する:マトリックスゲームでは,楽観的なボーナス付きベストレスポンスサンプリングに基づくアルゴリズムOMGを提案し,アルゴリズムSOMGを用いてマルコフゲームに拡張する。
両アルゴリズムは、標準の$widetildemathcalO(sqrtT)に加えて、KL正規化強度$beta$と共に逆スケールする$T$の対数後悔を実現する。
論文 参考訳(メタデータ) (2025-10-15T01:00:54Z) - Breaking the Curse of Multiagency in Robust Multi-Agent Reinforcement Learning [37.80275600302316]
分布的にロバストなマルコフゲーム (RMG) は、MARLのロバスト性を高めるために提案されている。
悪名高いオープンな2つの課題は、不確実性の集合の定式化と、対応するRMGがマルチ緊急の呪いを克服できるかどうかである。
本研究では,行動経済学に着想を得た自然なRMGのクラスを提案し,各エージェントの不確実性セットは,環境と他のエージェントの統合行動の両方によって形成される。
論文 参考訳(メタデータ) (2024-09-30T08:09:41Z) - Convergence of Decentralized Actor-Critic Algorithm in General-sum Markov Games [3.8779763612314633]
一般的なマルコフゲームにおける学習アルゴリズムの特性について検討する。
特に,各エージェントがアクター批判学習を動的に採用する分散アルゴリズムに着目した。
論文 参考訳(メタデータ) (2024-09-06T20:49:11Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Multi-Player Zero-Sum Markov Games with Networked Separable Interactions [23.270589136657254]
我々は,emphNetworked separable interaction (zero-sum NMGs)を用いた新しいマルコフゲーム,emph(multi-player) 0-sum Markov Gamesの研究を行った。
無限水平割引ゼロサムNMGにおける近似マルコフ非定常CCEの発見は、基礎となるネットワークが星のトポロジーを持っていなければ、textttPPAD-hardであることを示す。」
論文 参考訳(メタデータ) (2023-07-13T19:05:11Z) - Provably Learning Nash Policies in Constrained Markov Potential Games [90.87573337770293]
マルチエージェント強化学習(MARL)は、複数のエージェントによるシーケンシャルな意思決定問題に対処する。
制約マルコフゲーム(Constrained Markov Games, CMGs)は、安全なMARL問題の自然な定式化である。
論文 参考訳(メタデータ) (2023-06-13T13:08:31Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。