論文の概要: Minimax Strikes Back
- arxiv url: http://arxiv.org/abs/2012.10700v2
- Date: Mon, 05 May 2025 16:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 14:59:11.564603
- Title: Minimax Strikes Back
- Title(参考訳): Minimaxが復活
- Authors: Quentin Cohen-Solal, Tristan Cazenave,
- Abstract要約: 深層強化学習は多くの完全な情報ゲームにおいてレベルレベルに達する。
別のアプローチとして、Ath'enanは、Descentと呼ばれる、Minimaxベースの検索アルゴリズムを使っている。
複数のゲームにおいて、AlphaZero: Polygamesの再実装よりもはるかに効率的であることを示す。
- 参考スコア(独自算出の注目度): 3.860785927193332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning reaches a superhuman level of play in many complete information games. The state of the art algorithm for learning with zero knowledge is AlphaZero. We take another approach, Ath\'enan, which uses a different, Minimax-based, search algorithm called Descent, as well as different learning targets and that does not use a policy. We show that for multiple games it is much more efficient than the reimplementation of AlphaZero: Polygames. It is even competitive with Polygames when Polygames uses 100 times more GPU (at least for some games). One of the keys to the superior performance is that the cost of generating state data for training is approximately 296 times lower with Ath\'enan. With the same reasonable ressources, Ath\'enan without reinforcement heuristic is at least 7 times faster than Polygames and much more than 30 times faster with reinforcement heuristic.
- Abstract(参考訳): 深層強化学習は多くの完全情報ゲームにおいて超人的なレベルに到達している。
ゼロ知識で学習する最先端のアルゴリズムはAlphaZeroである。
別のアプローチであるAth\'enanは、Descentと呼ばれる異なるMinimaxベースの検索アルゴリズムと、異なる学習ターゲットを使用し、ポリシーを使用しない。
複数のゲームにおいて、AlphaZero: Polygamesの再実装よりもはるかに効率的であることを示す。
Polygamesは100倍のGPU(少なくとも一部のゲームでは)を使用している。
優れたパフォーマンスの鍵の1つは、トレーニングのための状態データを生成するコストがAth\enanの約296倍低いことである。
同じ合理的な資源で、強化ヒューリスティックのないAth\'enanはポリゲームより少なくとも7倍速く、強化ヒューリスティックでは30倍以上高速である。
関連論文リスト
- Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。
5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文 参考訳(メタデータ) (2025-02-13T03:38:41Z) - Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - Deep Reinforcement Learning for 5*5 Multiplayer Go [6.222520876209623]
本稿では,検索と深層強化学習(DRL)を用いた最新のアルゴリズムの利用と解析を提案する。
我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。
論文 参考訳(メタデータ) (2024-05-23T07:44:24Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - All You Need Is Supervised Learning: From Imitation Learning to Meta-RL
With Upside Down RL [0.5735035463793008]
上向き強化学習(UDRL)は、従来のRLの目的関数の戻り値の使用をひっくり返す。
UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLのいくつかの大きな問題を回避している。
論文 参考訳(メタデータ) (2022-02-24T08:44:11Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games
Research with Deep Reinforcement Learning [0.0]
Gym-$mu$RTS をフルゲーム RTS 研究のための高速実行 RL 環境として紹介する。
DRLをスケールしてフルゲームの$mu$RTSをプレイするためのテクニックのコレクションを提示する。
論文 参考訳(メタデータ) (2021-05-21T20:13:35Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。