論文の概要: DREAM: Deep Regret minimization with Advantage baselines and Model-free
learning
- arxiv url: http://arxiv.org/abs/2006.10410v2
- Date: Sun, 29 Nov 2020 12:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:22:27.669470
- Title: DREAM: Deep Regret minimization with Advantage baselines and Model-free
learning
- Title(参考訳): DREAM: アドバンテージベースラインとモデルフリー学習によるDeep Regret最小化
- Authors: Eric Steinberger, Adam Lerer, Noam Brown
- Abstract要約: 我々は,複数のエージェントを用いた不完全情報ゲームにおいて,最適な戦略を求めるディープ強化学習アルゴリズムであるDREAMを紹介する。
我々の主要な革新は、他の後悔に基づくディープラーニングアルゴリズムとは対照的に、優れたパフォーマンスを達成するために、ゲームの完璧なシミュレータにアクセスする必要のない効果的なアルゴリズムである。
- 参考スコア(独自算出の注目度): 24.273841968933475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DREAM, a deep reinforcement learning algorithm that finds
optimal strategies in imperfect-information games with multiple agents.
Formally, DREAM converges to a Nash Equilibrium in two-player zero-sum games
and to an extensive-form coarse correlated equilibrium in all other games. Our
primary innovation is an effective algorithm that, in contrast to other
regret-based deep learning algorithms, does not require access to a perfect
simulator of the game to achieve good performance. We show that DREAM
empirically achieves state-of-the-art performance among model-free algorithms
in popular benchmark games, and is even competitive with algorithms that do use
a perfect simulator.
- Abstract(参考訳): 複数のエージェントによる不完全情報ゲームにおいて最適な戦略を見出す深層強化学習アルゴリズムdreamを提案する。
形式的には、ドリームは2人プレイのゼロサムゲームではナッシュ均衡に収束し、他の全てのゲームでは広範囲にわたる粗相関均衡に収束する。
我々の主要な革新は、他の後悔に基づくディープラーニングアルゴリズムとは対照的に、優れたパフォーマンスを達成するために、ゲームの完璧なシミュレータにアクセスする必要のない効果的なアルゴリズムである。
我々は,DREAMが一般的なベンチマークゲームにおいて,モデルフリーアルゴリズムの最先端性能を実証的に達成し,完全シミュレータを用いたアルゴリズムと競合することを示した。
関連論文リスト
- Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Online Learning and Solving Infinite Games with an ERM Oracle [20.1330044382824]
本稿では,ERMオーラクルコールのみに依存するオンラインバイナリ分類設定のためのアルゴリズムを提案する。
我々は、実現可能な設定における有限の後悔と、不可知的な設定におけるサブリニアに成長する後悔が示される。
我々のアルゴリズムは二値ゲームと実値ゲームの両方に適用でき、大きなゲームを解く実践において、二重オラクルと多重オラクルのアルゴリズムを広く活用するための正当性を提供すると見なすことができる。
論文 参考訳(メタデータ) (2023-07-04T12:51:21Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。