論文の概要: Self-adaptive PSRO: Towards an Automatic Population-based Game Solver
- arxiv url: http://arxiv.org/abs/2404.11144v1
- Date: Wed, 17 Apr 2024 07:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:55:00.595968
- Title: Self-adaptive PSRO: Towards an Automatic Population-based Game Solver
- Title(参考訳): 自己適応型PSRO:自動人口ベースゲームソルバを目指して
- Authors: Pengdeng Li, Shuxin Li, Chang Yang, Xinrun Wang, Xiao Huang, Hau Chan, Bo An,
- Abstract要約: 一般のアルゴリズムフレームワークとしてのポリシー空間対応オラクル(PSRO)は、2つのプレイヤーゼロサムゲームの平衡ポリシーの学習において最先端のパフォーマンスを達成した。
我々はPSROフレームワークにおける最適パラメータ値を自己適応的に決定する可能性について検討する。
様々な2プレイヤーゼロサムゲームの実験は、異なるベースラインに対するSPSROの優位性を示している。
- 参考スコア(独自算出の注目度): 34.326819257554874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-Space Response Oracles (PSRO) as a general algorithmic framework has achieved state-of-the-art performance in learning equilibrium policies of two-player zero-sum games. However, the hand-crafted hyperparameter value selection in most of the existing works requires extensive domain knowledge, forming the main barrier to applying PSRO to different games. In this work, we make the first attempt to investigate the possibility of self-adaptively determining the optimal hyperparameter values in the PSRO framework. Our contributions are three-fold: (1) Using several hyperparameters, we propose a parametric PSRO that unifies the gradient descent ascent (GDA) and different PSRO variants. (2) We propose the self-adaptive PSRO (SPSRO) by casting the hyperparameter value selection of the parametric PSRO as a hyperparameter optimization (HPO) problem where our objective is to learn an HPO policy that can self-adaptively determine the optimal hyperparameter values during the running of the parametric PSRO. (3) To overcome the poor performance of online HPO methods, we propose a novel offline HPO approach to optimize the HPO policy based on the Transformer architecture. Experiments on various two-player zero-sum games demonstrate the superiority of SPSRO over different baselines.
- Abstract(参考訳): 一般のアルゴリズムフレームワークとしてのポリシー空間対応オラクル(PSRO)は、2つのプレイヤーゼロサムゲームの平衡ポリシーの学習において最先端のパフォーマンスを達成した。
しかし、既存の作品の大部分が手作りのハイパーパラメータ値の選択には広範なドメイン知識が必要であり、PSROを異なるゲームに適用する上で大きな障壁となる。
本研究では,PSROフレームワークにおける最適パラメータ値を自己適応的に決定する可能性について検討する。
1)複数のハイパーパラメータを用いて、勾配降下上昇(GDA)と異なるPSRO変異を統一するパラメトリックPSROを提案する。
2) パラメトリックPSROのハイパーパラメータ値選択をハイパーパラメータ最適化(HPO)問題として, パラメトリックPSROの実行中に最適なハイパーパラメータ値を自己適応的に決定できるHPOポリシーを学習することを目的とした自己適応PSRO(SPSRO)を提案する。
(3) オンラインHPO手法の貧弱な性能を克服するため,Transformerアーキテクチャに基づくHPOポリシーを最適化するための新しいオフラインHPO手法を提案する。
様々な2プレイヤーゼロサムゲームの実験は、異なるベースラインに対するSPSROの優位性を示している。
関連論文リスト
- Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning [42.33815055388433]
ARLBenchは強化学習(RL)におけるハイパーパラメータ最適化(HPO)のベンチマークである
様々なHPOアプローチの比較が可能であり、高い効率で評価できる。
ARLBenchはAutoRLの研究のための効率的で柔軟性があり、未来志向の基盤である。
論文 参考訳(メタデータ) (2024-09-27T15:22:28Z) - AutoRAG-HP: Automatic Online Hyper-Parameter Tuning for Retrieval-Augmented Generation [37.456499537121886]
大規模言語モデルの最近の進歩はML/AI開発に変化をもたらした。
大規模言語モデルの最近の進歩は、検索・拡張生成(RAG)システムにおけるAutoMLの原則を変革している。
論文 参考訳(メタデータ) (2024-06-27T15:18:21Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - A New Linear Scaling Rule for Private Adaptive Hyperparameter Optimization [57.450449884166346]
本稿では,HPOのプライバシコストを考慮した適応型HPO法を提案する。
我々は22のベンチマークタスク、コンピュータビジョンと自然言語処理、事前学習と微調整で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2022-12-08T18:56:37Z) - Feasible Adversarial Robust Reinforcement Learning for Underspecified
Environments [11.866835246140647]
実世界の環境では、堅牢な強化学習のための可能な値のセットを選択することは難しい作業である。
本稿では,環境パラメータ値の集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。
このFARRゲームにおいて、PSROアルゴリズムを用いて近似ナッシュ平衡を求めることにより、FARRで訓練されたエージェントは、既存のミニマックス、ドメインランダム化、後悔の目的よりも、実現可能な逆パラメータ選択に頑健であることを示す。
論文 参考訳(メタデータ) (2022-07-19T23:57:51Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Towards Hyperparameter-free Policy Selection for Offline Reinforcement
Learning [10.457660611114457]
オフライン強化学習において、異なるトレーニングアルゴリズムによって生成される価値関数とポリシーの選択方法を示す。
我々は,近年の値関数選択の理論的進歩であるBVFT[XJ21]を用いて,Atariなどの離散作用ベンチマークにおいて,その有効性を示す。
論文 参考訳(メタデータ) (2021-10-26T20:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。