論文の概要: Independent Learning of Nash Equilibria in Partially Observable Markov Potential Games with Decoupled Dynamics
- arxiv url: http://arxiv.org/abs/2605.06377v1
- Date: Thu, 07 May 2026 14:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.92195
- Title: Independent Learning of Nash Equilibria in Partially Observable Markov Potential Games with Decoupled Dynamics
- Title(参考訳): 切り離されたダイナミクスを持つ部分観測可能なマルコフポテンシャルゲームにおけるナッシュ平衡の独立学習
- Authors: Philip Jordan, Maryam Kamgarpour,
- Abstract要約: 部分的に観測可能なマルコフゲーム(POMG)におけるナッシュ均衡学習の研究
本研究では,各プレイヤーが自身の行動や観察のみを観察し,コミュニケーションを伴わない独立学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.784438985280092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Nash equilibrium learning in partially observable Markov games (POMGs), a multi-agent reinforcement learning framework in which agents cannot fully observe the underlying state. Prior work in this setting relies on centralization or information sharing, and suffers from sample and computational complexity that scales exponentially in the number of players. We focus on a subclass of POMGs with independent state transitions, where agents remain coupled through their rewards, and assume that the underlying fully observed Markov game is a Markov potential game. For this class, we present an independent learning algorithm in which players, observing only their own actions and observations and without communication, jointly converge to an approximate Nash equilibrium. Due to partial observability, optimal policies may in general depend on the full action-observation history. Under a filter stability assumption, we show that policies based on finite history windows provide sufficient approximation guarantees. This enables us to approximate the POMG by a surrogate Markov game that is near-potential, leading to quasi-polynomial sample and computational complexity for independent Nash equilibrium learning in the underlying POMG.
- Abstract(参考訳): エージェントが基礎となる状態を十分に観察できない多エージェント強化学習フレームワークである、部分的に観測可能なマルコフゲーム(POMG)におけるナッシュ均衡学習について検討する。
この設定での以前の作業は、中央集権化や情報共有に依存しており、プレイヤー数で指数関数的にスケールするサンプルと計算の複雑さに悩まされている。
我々は独立状態遷移を持つPOMGのサブクラスに焦点を合わせ、エージェントは報酬を通じて結合し続け、基礎となる完全に観察されたマルコフゲームがマルコフポテンシャルゲームであると仮定する。
このクラスでは、プレイヤーが自身の行動や観察のみを観察し、コミュニケーション無しで、近似的なナッシュ均衡に共同収束する独立した学習アルゴリズムを提案する。
部分的な可観測性のため、最適ポリシーは一般に完全な行動観測履歴に依存することがある。
フィルタ安定性の仮定により、有限履歴ウィンドウに基づくポリシーが十分な近似保証を提供することを示す。
これにより、擬似ポリーノミカル標本と計算複雑性を基礎となるPOMGにおける独立なナッシュ平衡学習に導いた、ほぼ潜在的確率のマルコフゲームにより、POMGを近似することができる。
関連論文リスト
- Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。