論文の概要: Student of Games: A unified learning algorithm for both perfect and
imperfect information games
- arxiv url: http://arxiv.org/abs/2112.03178v2
- Date: Wed, 15 Nov 2023 19:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 23:10:06.024913
- Title: Student of Games: A unified learning algorithm for both perfect and
imperfect information games
- Title(参考訳): student of games: 完全かつ不完全な情報ゲームのための統一学習アルゴリズム
- Authors: Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh
Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, G.
Zacharias Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling
- Abstract要約: Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
- 参考スコア(独自算出の注目度): 22.97853623156316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Games have a long history as benchmarks for progress in artificial
intelligence. Approaches using search and learning produced strong performance
across many perfect information games, and approaches using game-theoretic
reasoning and learning demonstrated strong performance for specific imperfect
information poker variants. We introduce Student of Games, a general-purpose
algorithm that unifies previous approaches, combining guided search, self-play
learning, and game-theoretic reasoning. Student of Games achieves strong
empirical performance in large perfect and imperfect information games -- an
important step towards truly general algorithms for arbitrary environments. We
prove that Student of Games is sound, converging to perfect play as available
computation and approximation capacity increases. Student of Games reaches
strong performance in chess and Go, beats the strongest openly available agent
in heads-up no-limit Texas hold'em poker, and defeats the state-of-the-art
agent in Scotland Yard, an imperfect information game that illustrates the
value of guided search, learning, and game-theoretic reasoning.
- Abstract(参考訳): ゲームは人工知能の進歩のベンチマークとして長い歴史がある。
探索と学習のアプローチは多くの完全情報ゲームに対して強い性能を示し、ゲーム理論の推論と学習によるアプローチは、特定の不完全な情報ポーカー変種に対して強い性能を示した。
我々は,従来のアプローチを統一した汎用アルゴリズムであるSings of Gamesを紹介し,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた。
ゲームの学生は、巨大な完全で不完全な情報ゲームにおいて強力な経験的パフォーマンスを達成している。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
ゲームズ・オブ・ゲームズ(英語版)はチェスと囲碁で強いパフォーマンスを獲得し、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、最先端のエージェントであるスコットランドヤード(英語版)を破り、ガイド付き検索、学習、ゲーム理論の推論の価値を描写する不完全な情報ゲームとなった。
関連論文リスト
- A Survey on Game Theory Optimal Poker [0.0]
現在までに不完全な情報ゲームは解決されていない。
これにより、ポーカーは人工知能研究にとって素晴らしいテストベッドとなる。
本稿では,ポーカーボットの成功にともなう抽象化手法,ベッティングモデル,具体的な戦略について論じる。
論文 参考訳(メタデータ) (2024-01-02T04:19:25Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - PerfectDou: Dominating DouDizhu with Perfect Information Distillation [51.069043489706836]
本研究では,現在最先端のDouDizhuAIシステムであるPerfectDouを提案する。
実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。
論文 参考訳(メタデータ) (2022-03-30T15:37:57Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。
本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文 参考訳(メタデータ) (2020-05-04T16:58:17Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。