論文の概要: Internal State-Based Policy Gradient Methods for Partially Observable Markov Potential Games
- arxiv url: http://arxiv.org/abs/2604.00433v1
- Date: Wed, 01 Apr 2026 03:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.81565
- Title: Internal State-Based Policy Gradient Methods for Partially Observable Markov Potential Games
- Title(参考訳): 部分観測可能なマルコフポテンシャルゲームのための内部状態に基づくポリシー勾配法
- Authors: Wonseok Yang, Thinh T. Doan,
- Abstract要約: この手紙は、部分的に観測可能なマルコフポテンシャルゲームにおけるマルチエージェント強化学習を研究する。
エージェントは共有情報とローカル情報の両方に基づいて行動することができる。
次に、マルコフポテンシャルゲームのナッシュ平衡を求めるために、内部状態に基づく自然ポリシー勾配法を実装した。
- 参考スコア(独自算出の注目度): 4.299934797034146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This letter studies multi-agent reinforcement learning in partially observable Markov potential games. Solving this problem is challenging due to partial observability, decentralized information, and the curse of dimensionality. First, to address the first two challenges, we leverage the common information framework, which allows agents to act based on both shared and local information. Second, to ensure tractability, we study an internal state that compresses accumulated information, preventing it from growing unboundedly over time. We then implement an internal state-based natural policy gradient method to find Nash equilibria of the Markov potential game. Our main contribution is to establish a non-asymptotic convergence bound for this method. Our theoretical bound decomposes into two interpretable components: a statistical error term that also arises in standard Markov potential games, and an approximation error capturing the use of finite-state controllers. Finally, simulations across multiple partially observable environments demonstrate that the proposed method using finite-state controllers achieves consistent improvements in performance compared to the setting where only the current observation is used.
- Abstract(参考訳): この手紙は、部分的に観測可能なマルコフポテンシャルゲームにおけるマルチエージェント強化学習を研究する。
この問題を解決するには、部分的な可観測性、分散化された情報、次元の呪いがある。
まず、最初の2つの課題に対処するために、エージェントが共有情報とローカル情報の両方に基づいて行動できるようにする共通情報フレームワークを活用します。
第二に、トラクタビリティを確保するため、蓄積した情報を圧縮する内部状態について検討し、時間とともに無拘束で成長するのを防ぐ。
次に、マルコフポテンシャルゲームのナッシュ平衡を求めるために、内部状態に基づく自然ポリシー勾配法を実装した。
我々の主な貢献は、この方法の非漸近収束を確立することである。
我々の理論境界は、標準的なマルコフポテンシャルゲームにも現れる統計的誤差項と、有限状態コントローラの使用を捉える近似誤差の2つの解釈可能な成分に分解される。
最後に, 有限状態制御器を用いたシミュレーションにより, 現在の観測値のみを用いた場合と比較して, 連続的な性能向上が達成できることを示した。
関連論文リスト
- Cost-Driven Representation Learning for Linear Quadratic Gaussian Control: Part II [57.29427648134142]
部分的および潜在的に高次元観測から制御する状態表現学習の課題について検討する。
我々は、コスト駆動型状態表現学習を通じてこの問題にアプローチし、累積コストを予測して潜在状態空間の動的モデルを学習する。
論文 参考訳(メタデータ) (2026-03-08T03:20:52Z) - Active Localization of Unstable Systems with Coarse Information [2.094349987888854]
粗い単一ビットセンシング下での不安定なシステムの局所化と制御について検討する。
我々は,Voronoiパーティションから導かれる制御戦略とセットベース推定器を統合する能動的ローカライゼーションアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-02-05T20:56:16Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Exploiting hidden structures in non-convex games for convergence to Nash
equilibrium [62.88214569402201]
現代の機械学習アプリケーションは、非協調的なナッシュリリアとして定式化することができる。
決定論的環境と決定論的環境の両方に明確な収束保証を提供する。
論文 参考訳(メタデータ) (2023-12-27T15:21:25Z) - An Exponentially Converging Particle Method for the Mixed Nash Equilibrium of Continuous Games [16.95910326345246]
我々は,2プレイヤーゼロサムゲームの混合ナッシュ平衡と,純戦略の連続的なセットと,ペイオフ関数への一次アクセスとの問題を考察する。
この問題は例えば、分散ロバスト学習のようなゲームにインスパイアされた機械学習アプリケーションで発生する。
本稿では,この問題に対する局所収束性を保証する粒子法の導入と解析を行う。
論文 参考訳(メタデータ) (2022-11-02T17:03:40Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。