論文の概要: Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
- arxiv url: http://arxiv.org/abs/2405.21027v5
- Date: Fri, 09 May 2025 15:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:09.944625
- Title: Fusion-PSRO: Nash Policy Fusion for Policy Space Response Oracles
- Title(参考訳): Fusion-PSRO:Nash Policy Fusion for Policy Space Response Oracles
- Authors: Jiesong Lian, Yucong Huang, Chengdong Ma, Mingzhi Wang, Ying Wen, Long Hu, Yixue Hao,
- Abstract要約: Fusion-PSROはNash Policy Fusionを採用し、Best Responseトレーニングのための新しいポリシーを初期化している。
ナッシュ・ポリシー・フュージョン(Nash Policy Fusion)は、現在のMeta-NEの探索を開始する暗黙の指針となる政策である。
過去のポリシーの重み付けされた移動平均を洞察的に捉え、各イテレーションのMeta-NEに基づいて、これらの重みを動的に調整する。
- 参考スコア(独自算出の注目度): 8.690292392686665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For solving zero-sum games involving non-transitivity, a useful approach is to maintain a policy population to approximate the Nash Equilibrium (NE). Previous studies have shown that the Policy Space Response Oracles (PSRO) algorithm is an effective framework for solving such games. However, current methods initialize a new policy from scratch or inherit a single historical policy in Best Response (BR), missing the opportunity to leverage past policies to generate a better BR. In this paper, we propose Fusion-PSRO, which employs Nash Policy Fusion to initialize a new policy for BR training. Nash Policy Fusion serves as an implicit guiding policy that starts exploration on the current Meta-NE, thus providing a closer approximation to BR. Moreover, it insightfully captures a weighted moving average of past policies, dynamically adjusting these weights based on the Meta-NE in each iteration. This cumulative process further enhances the policy population. Empirical results on classic benchmarks show that Fusion-PSRO achieves lower exploitability, thereby mitigating the shortcomings of previous research on policy initialization in BR.
- Abstract(参考訳): 非推移性を含むゼロサムゲームを解決するには、Nash Equilibrium (NE) を近似するポリシー人口を維持するのがよい。
これまでの研究では、ポリシー空間応答オラクル(PSRO)アルゴリズムがそのようなゲームを解くための効果的なフレームワークであることが示されている。
しかし、現在の手法では、新しいポリシーをスクラッチから初期化し、Best Response (BR) において単一の歴史的ポリシーを継承するが、過去のポリシーを活用してより良いBRを生成する機会を欠いている。
本稿では,ナッシュ・ポリシー・フュージョン(Nash Policy Fusion)を用いてBRトレーニングのための新しいポリシーを初期化するFusion-PSROを提案する。
ナッシュ・ポリシー・フュージョン(Nash Policy Fusion)は、現在のMeta-NEの探索を開始する暗黙の指針として機能し、BRにより近い近似を提供する。
さらに、過去のポリシーの重み付けされた移動平均を洞察的に捉え、各イテレーションにおけるMeta-NEに基づいて、これらの重み付けを動的に調整する。
この累積的なプロセスにより、政策人口はさらに増大する。
古典的ベンチマークにおける実証的な結果は、Fusion-PSROがより低いエクスプロイナビリティを実現し、BRにおける政策初期化に関するこれまでの研究の欠点を軽減していることを示している。
関連論文リスト
- Strategyproof Reinforcement Learning from Human Feedback [27.129105195239465]
既存のRLHF法は, 防御性がないことを示す。
また, 任意のRLHFアルゴリズムは, 最適ポリシーよりも$k$-times悪い処理をしなければならないことも見いだした。
論文 参考訳(メタデータ) (2025-03-12T17:25:52Z) - Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - A Simple Mixture Policy Parameterization for Improving Sample Efficiency of CVaR Optimization [33.752940941471756]
政策勾配(PG)を利用してリスク条件値(CVaR)を最適化する強化学習アルゴリズムは、サンプルの非効率性において重大な課題に直面している。
本稿では,リスクニュートラル政策と調整可能な政策を統合し,リスク・アバース政策を形成する簡易な混合政策パラメタライゼーションを提案する。
実験により、この混合パラメータ化は様々なベンチマーク領域で一意に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-17T02:24:09Z) - POTEC: Off-Policy Learning for Large Action Spaces via Two-Stage Policy
Decomposition [40.851324484481275]
大規模離散行動空間における文脈的バンディット政策の非政治的学習について検討する。
本稿では,2段階ポリシー分解によるポリシー最適化という新しい2段階アルゴリズムを提案する。
特に大規模かつ構造化された行動空間において,POTECはOPLの有効性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-02-09T03:01:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。