論文の概要: Learning to Play Two-Player Perfect-Information Games without Knowledge
- arxiv url: http://arxiv.org/abs/2008.01188v3
- Date: Tue, 12 Oct 2021 17:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:23:17.945487
- Title: Learning to Play Two-Player Perfect-Information Games without Knowledge
- Title(参考訳): 知識のない2人プレイの完全情報ゲームを学ぶ
- Authors: Quentin Cohen-Solal
- Abstract要約: 本稿では,強化によるゲーム状態評価関数の学習手法を提案する。
一つは木のブートストラップの一般化(ツリー学習)であり、知識のない強化学習の文脈に適応する。
2つ目は、最良な動作列を終端状態まで延ばす非有界深さを持つミニマックスの修正である。
3つ目は、ゲームの古典的なゲイン(+1 / -1)を強化で置き換えることである。
- 参考スコア(独自算出の注目度): 0.6853165736531939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, several techniques for learning game state evaluation
functions by reinforcement are proposed. The first is a generalization of tree
bootstrapping (tree learning): it is adapted to the context of reinforcement
learning without knowledge based on non-linear functions. With this technique,
no information is lost during the reinforcement learning process. The second is
a modification of minimax with unbounded depth extending the best sequences of
actions to the terminal states. This modified search is intended to be used
during the learning process. The third is to replace the classic gain of a game
(+1 / -1) with a reinforcement heuristic. We study particular reinforcement
heuristics such as: quick wins and slow defeats ; scoring ; mobility or
presence. The four is another variant of unbounded minimax, which plays the
safest action instead of playing the best action. This modified search is
intended to be used after the learning process. The five is a new action
selection distribution. The conducted experiments suggest that these techniques
improve the level of play. Finally, we apply these different techniques to
design program-players to the game of Hex (size 11 and 13) surpassing the level
of Mohex 3HNN with reinforcement learning from self-play without knowledge.
- Abstract(参考訳): 本稿では,強化によるゲーム状態評価関数の学習手法をいくつか提案する。
一つは木のブートストラップの一般化(ツリー学習)であり、非線形関数に基づいた知識のない強化学習の文脈に適応する。
この手法では、強化学習プロセス中に情報を失うことはない。
2つ目は、最良な動作列を終端状態まで延ばす非有界深さを持つミニマックスの修正である。
この修正された検索は、学習プロセスで使用されることを意図している。
3つ目はゲームの古典的なゲイン(+1 / -1)を強化ヒューリスティックに置き換えることである。
迅速な勝利と遅い敗北、スコア、モビリティやプレゼンスなど、特に強化ヒューリスティックな研究を行っている。
the fourはunbounded minimaxのもう一つの変種であり、最善のアクションを演じるのではなく、最も安全なアクションを演じる。
この修正された検索は、学習プロセス後に使用されることを意図している。
この5つが、新しいアクション選択ディストリビューションだ。
これらの手法が遊びのレベルを向上させることを示唆する実験を行った。
最後に、これらの異なる手法を、知識のない自己学習から強化学習を行い、Mohex 3HNNのレベルを超えるHex(サイズ11と13)のゲームに応用する。
関連論文リスト
- In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Learning to Play Soccer From Scratch: Sample-Efficient Emergent
Coordination through Curriculum-Learning and Competition [1.675857332621569]
本研究では,2v2サッカーに適用した複雑なマルチエージェント動作を効率的に学習する手法を提案する。
この問題はマルコフゲームとして定式化され、深層強化学習を用いて解決される。
この結果から, サッカーの高品質なプレーは40M未満のインタラクションで実現できることが示された。
論文 参考訳(メタデータ) (2021-03-09T01:57:16Z) - Reinforcement Learning with Dual-Observation for General Video Game
Playing [12.33685708449853]
General Video Game AI Learning Competitionは、トレーニング中に見えないさまざまなゲームレベルをプレイできるエージェントを開発することを目的としている。
本稿では,5年間の一般ゲームAI学習コンペティションを要約する。
汎用ゲームプレイのための2重観測を用いた新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T08:28:20Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。