論文の概要: Independent Learning in Performative Markov Potential Games
- arxiv url: http://arxiv.org/abs/2504.20593v1
- Date: Tue, 29 Apr 2025 09:46:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.830165
- Title: Independent Learning in Performative Markov Potential Games
- Title(参考訳): マルコフポテンシャルゲームにおける独立学習
- Authors: Rilind Sahitaj, Paulius Sasnauskas, Yiğit Yalın, Debmalya Mandal, Goran Radanović,
- Abstract要約: マルコフポテンシャルゲーム(MPG)に演奏効果を取り入れたマルチエージェントPRLの研究を行った。
独立政策勾配上昇 (IPGA) と独立自然政策勾配 (INPG) が, 最良イテレート感覚の近似勾配に収束することを示す。
- 参考スコア(独自算出の注目度): 4.433315630787158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performative Reinforcement Learning (PRL) refers to a scenario in which the deployed policy changes the reward and transition dynamics of the underlying environment. In this work, we study multi-agent PRL by incorporating performative effects into Markov Potential Games (MPGs). We introduce the notion of a performatively stable equilibrium (PSE) and show that it always exists under a reasonable sensitivity assumption. We then provide convergence results for state-of-the-art algorithms used to solve MPGs. Specifically, we show that independent policy gradient ascent (IPGA) and independent natural policy gradient (INPG) converge to an approximate PSE in the best-iterate sense, with an additional term that accounts for the performative effects. Furthermore, we show that INPG asymptotically converges to a PSE in the last-iterate sense. As the performative effects vanish, we recover the convergence rates from prior work. For a special case of our game, we provide finite-time last-iterate convergence results for a repeated retraining approach, in which agents independently optimize a surrogate objective. We conduct extensive experiments to validate our theoretical findings.
- Abstract(参考訳): 適応強化学習(PRL、Performative Reinforcement Learning)とは、デプロイされたポリシーが基礎となる環境の報酬と遷移のダイナミクスを変えるシナリオを指す。
本研究では,マルコフポテンシャルゲーム(MPG)にパフォーマンス効果を取り入れたマルチエージェントPRLについて検討する。
実効安定平衡(PSE)の概念を導入し、合理的な感度仮定の下で常に存在することを示す。
次に、MPGの解法に用いる最先端アルゴリズムの収束結果を提供する。
具体的には、独立政策勾配上昇(IPGA)と独立自然政策勾配(INPG)が、最も優れた意味で近似的なPSEに収束することを示す。
さらに,INPGは漸近的にPSEに収束することを示す。
性能効果がなくなると、先行作業から収束率を回復する。
ゲームの場合、エージェントが独立して代理目的を最適化する反復的再訓練アプローチに対して、有限時間最終点収束結果を提供する。
我々は理論的な結果を検証するために広範な実験を行った。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Revisiting Estimation Bias in Policy Gradients for Deep Reinforcement
Learning [0.0]
我々は、Deep Reinforcement Learningの観点から、割引されたエピソードマルコフ決定プロセス(MDP)の政策勾配の推定バイアスを再考する。
主要な政策バイアスの1つは、州の分散シフトである。
このような状態分布シフトにもかかわらず、政策勾配推定バイアスは以下の3つの方法で低減できることを示す。
論文 参考訳(メタデータ) (2023-01-20T06:46:43Z) - Entropy Augmented Reinforcement Learning [0.0]
我々は,最適下から脱出する能力を探求し,強化するために,移動型マルコフ決定プロセス(MDP)を提案する。
実験では,MuJoCoベンチマークタスクにおけるTRPOとPPOの強化実験を行い,エージェントがより高い報酬領域に向けてハートアップされていることを示す。
論文 参考訳(メタデータ) (2022-08-19T13:09:32Z) - Performative Reinforcement Learning [8.07595093287034]
実演安定政策の概念を導入する。
この目的を何度も最適化することは、性能的に安定した政策に収束することを示します。
論文 参考訳(メタデータ) (2022-06-30T18:26:03Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Independent Natural Policy Gradient Always Converges in Markov Potential
Games [18.43622733760659]
マルコフポテンシャルゲーム(MPG)と呼ばれる複合協調・競争ゲームについて研究する。
独立自然政策グラディエントは常に一定の学習率を用いてMPGに収束することを示す。
我々は, 自然政策グラディエントが, ゲームや渋滞ゲームのルーティングにおいて, ポリシーグラディエントより優れていることを示す実験により, 理論結果を補完する。
論文 参考訳(メタデータ) (2021-10-20T15:15:10Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。