論文の概要: Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
- arxiv url: http://arxiv.org/abs/2405.21027v1
- Date: Fri, 31 May 2024 17:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 13:29:24.331525
- Title: Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
- Title(参考訳): Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles
- Authors: Jiesong Lian, Yucong Huang, Mingzhi Wang, Chengdong Ma, Yixue Hao, Ying Wen, Yaodong Yang,
- Abstract要約: ポリシースペース対応 Oracleはゼロサムゲームのための効果的な強化学習フレームワークである。
我々はモデル融合を用いてBRの近似を改善するためのポリシーを初期化するFusion-PSROを提案する。
NEのTop-k確率により、我々は高品質のベースポリシーを選択し、モデル平均化を通じてそれらを新しいBRポリシーに融合する。
- 参考スコア(独自算出の注目度): 11.005975835744625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For solving zero-sum games involving non-transitivity, a common approach is to maintain population policies to approximate the Nash Equilibrium (NE). Previous research has shown that the Policy Space Response Oracle (PSRO) is an effective multi-agent reinforcement learning framework for these games. However, repeatedly training new policies from scratch to approximate the Best Response (BR) to opponents' mixed policies at each iteration is inefficient and costly. While some PSRO methods initialize a new BR policy by inheriting from past BR policies, this approach limits the exploration of new policies, especially against challenging opponents.To address this issue, we propose Fusion-PSRO, which uses model fusion to initialize the policy for better approximation to BR. With Top-k probabilities from NE, we select high-quality base policies and fuse them into a new BR policy through model averaging. This approach allows the initialized policy to incorporate multiple expert policies, making it easier to handle difficult opponents compared to inheriting or initializing from scratch. Additionally, our method only modifies the policy initialization, enabling its application to nearly all PSRO variants without additional training overhead.Our experiments with non-transitive matrix games, Leduc poker, and the more complex Liars Dice demonstrate that Fusion-PSRO enhances the performance of nearly all PSRO variants, achieving lower exploitability.
- Abstract(参考訳): 非推移性を含むゼロサムゲームを解決するための一般的なアプローチは、Nash Equilibrium (NE) を近似する集団ポリシーを維持することである。
これまでの研究によると、Physal Space Response Oracle (PSRO) は、これらのゲームに有効なマルチエージェント強化学習フレームワークである。
しかし、各イテレーションで相手の混合ポリシーにBest Response(BR)を近似するために、スクラッチから新しいポリシーを繰り返し訓練することは、非効率でコストがかかる。
いくつかのPSRO手法は、過去のBRポリシーを継承して新しいBRポリシーを初期化するが、この問題に対処するため、モデル融合を用いてBRの近似性を向上するためにポリシーを初期化するFusion-PSROを提案する。
NEのTop-k確率により、我々は高品質のベースポリシーを選択し、モデル平均化を通じてそれらを新しいBRポリシーに融合する。
このアプローチにより、初期化ポリシが複数の専門家ポリシを組み込むことで、スクラッチから継承や初期化よりも難しい相手の扱いが容易になる。
さらに,本手法はポリシーの初期化のみを修正し,トレーニングのオーバーヘッドを伴わずにほぼすべてのPSRO変種を適用可能にする。我々は,非推移行列ゲーム,Leduc poker,さらに複雑なLiars Diceを用いて実験を行い,Fusion-PSROがほぼ全てのPSRO変種の性能を向上させることを示し,より低い利用性を実現する。
関連論文リスト
- WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization [33.752940941471756]
政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面している。
本稿では,リスクニュートラル政策と調整可能な政策を統合し,リスク・アバース政策を形成する簡易な混合政策パラメタライゼーションを提案する。
実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-17T02:24:09Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。