論文の概要: Minimax Strikes Back
- arxiv url: http://arxiv.org/abs/2012.10700v1
- Date: Sat, 19 Dec 2020 14:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 11:12:37.678860
- Title: Minimax Strikes Back
- Title(参考訳): Minimaxが復活
- Authors: Quentin Cohen-Solal and Tristan Cazenave
- Abstract要約: Deep Reinforcement Learningは、多くの完全な情報ゲームで超人的なプレイレベルに達します。
我々は、MCTSの代わりにMinimaxアルゴリズムを用いてDRLに別のアプローチを採り、ポリシーではなく状態の評価のみを学習する。
私たちは、複数のゲームでは、学習パフォーマンスと対立のための芸術DRLの状態と競争力があることを示しています。
- 参考スコア(独自算出の注目度): 10.485343576893865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) reaches a superhuman level of play in many
complete information games. The state of the art search algorithm used in
combination with DRL is Monte Carlo Tree Search (MCTS). We take another
approach to DRL using a Minimax algorithm instead of MCTS and learning only the
evaluation of states, not the policy. We show that for multiple games it is
competitive with the state of the art DRL for the learning performances and for
the confrontations.
- Abstract(参考訳): 深層強化学習(DRL)は多くの完全情報ゲームにおいて超人的なレベルに達する。
drlと組み合わせて使用されるアート探索アルゴリズムの状況はモンテカルロ木探索 (mcts) である。
我々は、MCTSの代わりにMinimaxアルゴリズムを用いてDRLに別のアプローチを採り、ポリシーではなく状態の評価のみを学習する。
複数のゲームにおいて,学習パフォーマンスや対決に対して,アートDRLの状況と競合することを示す。
関連論文リスト
- Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。
5600以上のトレーニング実行、FP、DO、CFRベースのアプローチは、一般的なポリシー勾配メソッドを上回りません。
論文 参考訳(メタデータ) (2025-02-13T03:38:41Z) - Reinforcing Competitive Multi-Agents for Playing So Long Sucker [0.393259574660092]
本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
論文 参考訳(メタデータ) (2024-11-17T12:38:13Z) - Deep Reinforcement Learning for 5*5 Multiplayer Go [6.222520876209623]
本稿では,検索と深層強化学習(DRL)を用いた最新のアルゴリズムの利用と解析を提案する。
我々は,2人以上のプレイヤーがいても,検索とDRLによりプレイレベルを向上できたことを示す。
論文 参考訳(メタデータ) (2024-05-23T07:44:24Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - All You Need Is Supervised Learning: From Imitation Learning to Meta-RL
With Upside Down RL [0.5735035463793008]
上向き強化学習(UDRL)は、従来のRLの目的関数の戻り値の使用をひっくり返す。
UDRLは純粋に教師付き学習に基づいており、ブートストラップ、オフポリシー修正、割引係数といった、RLのいくつかの大きな問題を回避している。
論文 参考訳(メタデータ) (2022-02-24T08:44:11Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Gym-$\mu$RTS: Toward Affordable Full Game Real-time Strategy Games
Research with Deep Reinforcement Learning [0.0]
Gym-$mu$RTS をフルゲーム RTS 研究のための高速実行 RL 環境として紹介する。
DRLをスケールしてフルゲームの$mu$RTSをプレイするためのテクニックのコレクションを提示する。
論文 参考訳(メタデータ) (2021-05-21T20:13:35Z) - Maximum Entropy RL (Provably) Solves Some Robust RL Problems [94.80212602202518]
我々は、標準最大エントロピーRLが動的および報酬関数のいくつかの障害に対して堅牢であることを理論的に証明する。
以上の結果から,MaxEnt RL自体が特定の障害に対して頑健であり,追加の修正は不要であることが示唆された。
論文 参考訳(メタデータ) (2021-03-10T18:45:48Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。