論文の概要: Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games
- arxiv url: http://arxiv.org/abs/2503.22779v1
- Date: Fri, 28 Mar 2025 16:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:32:42.040056
- Title: Policy Optimization and Multi-agent Reinforcement Learning for Mean-variance Team Stochastic Games
- Title(参考訳): 平均分散チーム確率ゲームのためのポリシー最適化とマルチエージェント強化学習
- Authors: Junkai Hu, Li Xia,
- Abstract要約: 長期平均分散チームゲーム(MV-TSG)について検討する。
MV-TSGの主な課題は2つある。第一に、分散計量は動的条件下では加法的でもマルコフ的でもない。
逐次更新方式を用いた平均分散マルチエージェントポリシー反復 (MV-MAPI) アルゴリズムを提案する。
定常点の特定の条件をナッシュ平衡とし、さらに厳密な局所最適条件を導出する。
- 参考スコア(独自算出の注目度): 1.430310470698995
- License:
- Abstract: We study a long-run mean-variance team stochastic game (MV-TSG), where each agent shares a common mean-variance objective for the system and takes actions independently to maximize it. MV-TSG has two main challenges. First, the variance metric is neither additive nor Markovian in a dynamic setting. Second, simultaneous policy updates of all agents lead to a non-stationary environment for each individual agent. Both challenges make dynamic programming inapplicable. In this paper, we study MV-TSGs from the perspective of sensitivity-based optimization. The performance difference and performance derivative formulas for joint policies are derived, which provide optimization information for MV-TSGs. We prove the existence of a deterministic Nash policy for this problem. Subsequently, we propose a Mean-Variance Multi-Agent Policy Iteration (MV-MAPI) algorithm with a sequential update scheme, where individual agent policies are updated one by one in a given order. We prove that the MV-MAPI algorithm converges to a first-order stationary point of the objective function. By analyzing the local geometry of stationary points, we derive specific conditions for stationary points to be (local) Nash equilibria, and further, strict local optima. To solve large-scale MV-TSGs in scenarios with unknown environmental parameters, we extend the idea of trust region methods to MV-MAPI and develop a multi-agent reinforcement learning algorithm named Mean-Variance Multi-Agent Trust Region Policy Optimization (MV-MATRPO). We derive a performance lower bound for each update of joint policies. Finally, numerical experiments on energy management in multiple microgrid systems are conducted.
- Abstract(参考訳): 本研究では,各エージェントがシステムに対して共通の平均分散目標を共有し,それを最大化するために独立に行動する,長期平均分散チーム確率ゲーム(MV-TSG)について検討する。
MV-TSGには2つの大きな課題がある。
第一に、分散計量は動的条件下では加法的でもマルコフ的でもない。
第2に、すべてのエージェントの同時ポリシー更新は、各エージェントの非定常環境につながる。
どちらの課題も動的プログラミングを適用不可能にする。
本稿では,感性に基づく最適化の観点から,MV-TSGについて検討する。
MV-TSGの最適化情報を提供するジョイントポリシーの性能差と性能微分式を導出する。
この問題に対する決定論的ナッシュ政策の存在を実証する。
次に,個別エージェントポリシーを所定の順序で更新する逐次更新方式を用いた平均分散マルチエージェントポリシー反復(MV-MAPI)アルゴリズムを提案する。
MV-MAPIアルゴリズムは目的関数の1次定常点に収束することを示す。
定常点の局所幾何学を解析することにより、定常点が(局所的な)ナッシュ平衡であること、さらに厳密な局所最適条件を導出する。
環境パラメータが不明なシナリオにおける大規模MV-TSGの解決を目的として,信頼領域法をMV-MAPIに拡張し,平均分散マルチエージェント信頼領域ポリシー最適化(MV-MATRPO)と呼ばれるマルチエージェント強化学習アルゴリズムを開発した。
共同政策の更新ごとにパフォーマンスを低くする。
最後に,複数のマイクログリッドシステムにおけるエネルギー管理に関する数値実験を行った。
関連論文リスト
- Optimistic Multi-Agent Policy Gradient [23.781837938235036]
相対的過一般化 (Relative Over generalization, RO) は、エージェントが準最適結合ポリシーに向かって収束する際に起こる。
マルチエージェントポリシー勾配(MAPG)法では,ROに対処する手法は提案されていない。
本稿では,RO問題を緩和するMAPG手法の楽観的な更新を可能にする,汎用的でシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:47:54Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Dynamic Value Estimation for Single-Task Multi-Scene Reinforcement
Learning [22.889059874754242]
同じタスクから複数のレベル/シーン/条件を持つ環境において、深層強化学習エージェントを訓練することは、多くのアプリケーションにとって欠かせないものとなっている。
本研究では,複数のMDP環境に対する動的値推定(DVE)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T17:56:08Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。