論文の概要: Self-adaptive PSRO: Towards an Automatic Population-based Game Solver
- arxiv url: http://arxiv.org/abs/2404.11144v1
- Date: Wed, 17 Apr 2024 07:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:55:00.595968
- Title: Self-adaptive PSRO: Towards an Automatic Population-based Game Solver
- Title(参考訳): 自己適応型PSRO:自動人口ベースゲームソルバを目指して
- Authors: Pengdeng Li, Shuxin Li, Chang Yang, Xinrun Wang, Xiao Huang, Hau Chan, Bo An,
- Abstract要約: 一般のアルゴリズムフレームワークとしてのポリシー空間対応オラクル(PSRO)は、2つのプレイヤーゼロサムゲームの平衡ポリシーの学習において最先端のパフォーマンスを達成した。
我々はPSROフレームワークにおける最適パラメータ値を自己適応的に決定する可能性について検討する。
様々な2プレイヤーゼロサムゲームの実験は、異なるベースラインに対するSPSROの優位性を示している。
- 参考スコア(独自算出の注目度): 34.326819257554874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-Space Response Oracles (PSRO) as a general algorithmic framework has achieved state-of-the-art performance in learning equilibrium policies of two-player zero-sum games. However, the hand-crafted hyperparameter value selection in most of the existing works requires extensive domain knowledge, forming the main barrier to applying PSRO to different games. In this work, we make the first attempt to investigate the possibility of self-adaptively determining the optimal hyperparameter values in the PSRO framework. Our contributions are three-fold: (1) Using several hyperparameters, we propose a parametric PSRO that unifies the gradient descent ascent (GDA) and different PSRO variants. (2) We propose the self-adaptive PSRO (SPSRO) by casting the hyperparameter value selection of the parametric PSRO as a hyperparameter optimization (HPO) problem where our objective is to learn an HPO policy that can self-adaptively determine the optimal hyperparameter values during the running of the parametric PSRO. (3) To overcome the poor performance of online HPO methods, we propose a novel offline HPO approach to optimize the HPO policy based on the Transformer architecture. Experiments on various two-player zero-sum games demonstrate the superiority of SPSRO over different baselines.
- Abstract(参考訳): 一般のアルゴリズムフレームワークとしてのポリシー空間対応オラクル(PSRO)は、2つのプレイヤーゼロサムゲームの平衡ポリシーの学習において最先端のパフォーマンスを達成した。
しかし、既存の作品の大部分が手作りのハイパーパラメータ値の選択には広範なドメイン知識が必要であり、PSROを異なるゲームに適用する上で大きな障壁となる。
本研究では,PSROフレームワークにおける最適パラメータ値を自己適応的に決定する可能性について検討する。
1)複数のハイパーパラメータを用いて、勾配降下上昇(GDA)と異なるPSRO変異を統一するパラメトリックPSROを提案する。
2) パラメトリックPSROのハイパーパラメータ値選択をハイパーパラメータ最適化(HPO)問題として, パラメトリックPSROの実行中に最適なハイパーパラメータ値を自己適応的に決定できるHPOポリシーを学習することを目的とした自己適応PSRO(SPSRO)を提案する。
(3) オンラインHPO手法の貧弱な性能を克服するため,Transformerアーキテクチャに基づくHPOポリシーを最適化するための新しいオフラインHPO手法を提案する。
様々な2プレイヤーゼロサムゲームの実験は、異なるベースラインに対するSPSROの優位性を示している。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Deep Ranking Ensembles for Hyperparameter Optimization [9.453554184019108]
本稿では,メタ学習型ニューラルネットワークが構成性能のランク付けに最適化され,アンサンブルによる不確実性をモデル化する手法を提案する。
12のベースライン、16のHPO検索スペース、86のデータセット/タスクからなる大規模実験プロトコルにおいて、本手法がHPOの新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T13:52:40Z) - A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization [57.450449884166346]
本稿では,HPOのプライバシコストを考慮した適応型HPO法を提案する。
我々は22のベンチマークタスク、コンピュータビジョンと自然言語処理、事前学習と微調整で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2022-12-08T18:56:37Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Feasible Adversarial Robust Reinforcement Learning for Underspecified
Environments [11.866835246140647]
実世界の環境では、堅牢な強化学習のための可能な値のセットを選択することは難しい作業である。
本稿では,環境パラメータ値の集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。
このFARRゲームにおいて、PSROアルゴリズムを用いて近似ナッシュ平衡を求めることにより、FARRで訓練されたエージェントは、既存のミニマックス、ドメインランダム化、後悔の目的よりも、実現可能な逆パラメータ選択に頑健であることを示す。
論文 参考訳(メタデータ) (2022-07-19T23:57:51Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。