論文の概要: Efficient Competitive Self-Play Policy Optimization
- arxiv url: http://arxiv.org/abs/2009.06086v1
- Date: Sun, 13 Sep 2020 21:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 02:35:14.054278
- Title: Efficient Competitive Self-Play Policy Optimization
- Title(参考訳): 効率的な競争的自己プレイ政策最適化
- Authors: Yuanyi Zhong, Yuan Zhou, Jian Peng
- Abstract要約: 対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
- 参考スコア(独自算出の注目度): 20.023522000925094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from self-play has recently reported many successes.
Self-play, where the agents compete with themselves, is often used to generate
training data for iterative policy improvement. In previous work, heuristic
rules are designed to choose an opponent for the current learner. Typical rules
include choosing the latest agent, the best agent, or a random historical
agent. However, these rules may be inefficient in practice and sometimes do not
guarantee convergence even in the simplest matrix games. In this paper, we
propose a new algorithmic framework for competitive self-play reinforcement
learning in two-player zero-sum games. We recognize the fact that the Nash
equilibrium coincides with the saddle point of the stochastic payoff function,
which motivates us to borrow ideas from classical saddle point optimization
literature. Our method trains several agents simultaneously, and intelligently
takes each other as opponent based on simple adversarial rules derived from a
principled perturbation-based saddle optimization method. We prove
theoretically that our algorithm converges to an approximate equilibrium with
high probability in convex-concave games under standard assumptions. Beyond the
theory, we further show the empirical superiority of our method over baseline
methods relying on the aforementioned opponent-selection heuristics in matrix
games, grid-world soccer, Gomoku, and simulated robot sumo, with neural net
policy function approximators.
- Abstract(参考訳): セルフプレイによる強化学習は、最近多くの成功を報告した。
エージェントが自分自身と競合するセルフプレイは、反復的な政策改善のためのトレーニングデータを生成するためにしばしば使用される。
過去の研究では、ヒューリスティックなルールは現在の学習者の相手を選択するように設計されていた。
典型的なルールは、最新のエージェント、最高のエージェント、ランダムな履歴エージェントを選択することである。
しかし、これらのルールは実際には非効率であり、最も単純な行列ゲームにおいても収束を保証しないこともある。
本稿では,2プレイヤーゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
我々はナッシュ均衡が確率的ペイオフ関数のサドル点と一致するという事実を認識し、古典的なサドル点最適化文献からアイデアを借りる動機となっている。
提案手法は,複数のエージェントを同時に訓練し,基本摂動に基づくサドル最適化法から導かれる単純な逆法に基づいて,知的に互いに対戦する。
本アルゴリズムが標準仮定の下で凸凸ゲームにおいて高確率の近似平衡に収束することを理論的に証明する。
以上より,マトリクスゲーム,グリッドワールドサッカー,ゴ目,シミュレートロボット相撲において,ニューラルネット政策関数近似子を用いて,上記の対向選択ヒューリスティックスに依存するベースライン法よりも経験的優位を示す。
関連論文リスト
- A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。