論文の概要: Student of Games: A unified learning algorithm for both perfect and
imperfect information games
- arxiv url: http://arxiv.org/abs/2112.03178v2
- Date: Wed, 15 Nov 2023 19:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 23:10:06.024913
- Title: Student of Games: A unified learning algorithm for both perfect and
imperfect information games
- Title(参考訳): student of games: 完全かつ不完全な情報ゲームのための統一学習アルゴリズム
- Authors: Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh
Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, G.
Zacharias Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling
- Abstract要約: Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
- 参考スコア(独自算出の注目度): 22.97853623156316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Games have a long history as benchmarks for progress in artificial
intelligence. Approaches using search and learning produced strong performance
across many perfect information games, and approaches using game-theoretic
reasoning and learning demonstrated strong performance for specific imperfect
information poker variants. We introduce Student of Games, a general-purpose
algorithm that unifies previous approaches, combining guided search, self-play
learning, and game-theoretic reasoning. Student of Games achieves strong
empirical performance in large perfect and imperfect information games -- an
important step towards truly general algorithms for arbitrary environments. We
prove that Student of Games is sound, converging to perfect play as available
computation and approximation capacity increases. Student of Games reaches
strong performance in chess and Go, beats the strongest openly available agent
in heads-up no-limit Texas hold'em poker, and defeats the state-of-the-art
agent in Scotland Yard, an imperfect information game that illustrates the
value of guided search, learning, and game-theoretic reasoning.
- Abstract(参考訳): ゲームは人工知能の進歩のベンチマークとして長い歴史がある。
探索と学習のアプローチは多くの完全情報ゲームに対して強い性能を示し、ゲーム理論の推論と学習によるアプローチは、特定の不完全な情報ポーカー変種に対して強い性能を示した。
我々は,従来のアプローチを統一した汎用アルゴリズムであるSings of Gamesを紹介し,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた。
ゲームの学生は、巨大な完全で不完全な情報ゲームにおいて強力な経験的パフォーマンスを達成している。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
ゲームズ・オブ・ゲームズ(英語版)はチェスと囲碁で強いパフォーマンスを獲得し、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、最先端のエージェントであるスコットランドヤード(英語版)を破り、ガイド付き検索、学習、ゲーム理論の推論の価値を描写する不完全な情報ゲームとなった。
関連論文リスト
- Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文 参考訳(メタデータ) (2024-10-17T11:16:27Z) - Games for Artificial Intelligence Research: A Review and Perspectives [4.44336371847479]
本稿では,人工知能研究のためのゲームとゲームベースのプラットフォームについてレビューする。
特定のタイプの人工知能と、適切な人工知能技術を用いて、ゲームにおける特定のニーズをテストし、マッチングするための適切なゲームとのマッチングに関するガイダンスを提供する。
論文 参考訳(メタデータ) (2023-04-26T03:42:31Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。
本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文 参考訳(メタデータ) (2020-05-04T16:58:17Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。