論文の概要: Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games
- arxiv url: http://arxiv.org/abs/2007.13544v2
- Date: Sun, 29 Nov 2020 03:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:11:39.492419
- Title: Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games
- Title(参考訳): 深層強化学習と不完全情報ゲーム検索の併用
- Authors: Noam Brown, Anton Bakhtin, Adam Lerer, Qucheng Gong
- Abstract要約: 本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 30.520629802135574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of deep reinforcement learning and search at both training
and test time is a powerful paradigm that has led to a number of successes in
single-agent settings and perfect-information games, best exemplified by
AlphaZero. However, prior algorithms of this form cannot cope with
imperfect-information games. This paper presents ReBeL, a general framework for
self-play reinforcement learning and search that provably converges to a Nash
equilibrium in any two-player zero-sum game. In the simpler setting of
perfect-information games, ReBeL reduces to an algorithm similar to AlphaZero.
Results in two different imperfect-information games show ReBeL converges to an
approximate Nash equilibrium. We also show ReBeL achieves superhuman
performance in heads-up no-limit Texas hold'em poker, while using far less
domain knowledge than any prior poker AI.
- Abstract(参考訳): 訓練時間とテスト時間の両方における深い強化学習と検索の組み合わせは、alphazeroが例示するように、単一エージェント設定と完璧な情報ゲームで多くの成功をもたらした強力なパラダイムである。
しかし、この形式の先行アルゴリズムは不完全情報ゲームには対応できない。
本稿では,任意の2プレイヤーゼロサムゲームにおいて,ナッシュ均衡に確実に収束する自己学習と探索のための一般的なフレームワークであるReBeLを提案する。
完全情報ゲームのより単純な設定では、ReBeLはAlphaZeroに似たアルゴリズムに還元される。
2つの異なる情報ゲームの結果、rebelは近似ナッシュ均衡に収束する。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、ピークのないテキサスホールドエムポーカーにおいて超人的なパフォーマンスを達成することを示す。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Online Learning and Solving Infinite Games with an ERM Oracle [20.1330044382824]
本稿では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のためのアルゴリズムを提案する。
我々は、実現可能な設定における有限の後悔と、不可知的な設定におけるサブリニアに成長する後悔が示される。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当性を提供すると見なすことができる。
論文 参考訳(メタデータ) (2023-07-04T12:51:21Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Near-Optimal Learning of Extensive-Form Games with Imperfect Information [54.55092907312749]
本稿では,2プレイヤーゼロサムゲームにおいて,$widetildemathcalO((XA+YB)/varepsilon2)$プレイのエピソードのみを必要とするアルゴリズムの最初の行を,$varepsilon$-approximate Nash平衡を求める。
これにより$widetildemathcalO((X2A+Y2B)/varepsilon2)$が$widetildemathcalO(maxX,
論文 参考訳(メタデータ) (2022-02-03T18:18:28Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Model-Free Learning for Two-Player Zero-Sum Partially Observable Markov
Games with Perfect Recall [34.73929457960903]
本研究では,不完全情報ゲーム(IIG)におけるナッシュ均衡(NE)学習の問題について,自己学習を通して検討する。
Inlicit Exploration Online Mirror Descent (IXOMD)アルゴリズムを提案する。
IXOMD は 1/sqrtT$ の NE への収束率に縛られる確率の高いモデルのないアルゴリズムである。
論文 参考訳(メタデータ) (2021-06-11T09:51:29Z) - DREAM: Deep Regret minimization with Advantage baselines and Model-free
learning [24.273841968933475]
我々は,複数のエージェントを用いた不完全情報ゲームにおいて,最適な戦略を求めるディープ強化学習アルゴリズムであるDREAMを紹介する。
我々の主要な革新は、他の後悔に基づくディープラーニングアルゴリズムとは対照的に、優れたパフォーマンスを達成するために、ゲームの完璧なシミュレータにアクセスする必要のない効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2020-06-18T10:30:27Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。