論文の概要: Player of Games
- arxiv url: http://arxiv.org/abs/2112.03178v1
- Date: Mon, 6 Dec 2021 17:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:37:26.696099
- Title: Player of Games
- Title(参考訳): ゲームのプレーヤー
- Authors: Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh
Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, Zach
Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling
- Abstract要約: Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。
プレイヤ・オブ・ゲームは,有効時間と計算能力が増大するにつれて,完全プレイに収束する。
- 参考スコア(独自算出の注目度): 20.88939316658193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Games have a long history of serving as a benchmark for progress in
artificial intelligence. Recently, approaches using search and learning have
shown strong performance across a set of perfect information games, and
approaches using game-theoretic reasoning and learning have shown strong
performance for specific imperfect information poker variants. We introduce
Player of Games, a general-purpose algorithm that unifies previous approaches,
combining guided search, self-play learning, and game-theoretic reasoning.
Player of Games is the first algorithm to achieve strong empirical performance
in large perfect and imperfect information games -- an important step towards
truly general algorithms for arbitrary environments. We prove that Player of
Games is sound, converging to perfect play as available computation time and
approximation capacity increases. Player of Games reaches strong performance in
chess and Go, beats the strongest openly available agent in heads-up no-limit
Texas hold'em poker (Slumbot), and defeats the state-of-the-art agent in
Scotland Yard, an imperfect information game that illustrates the value of
guided search, learning, and game-theoretic reasoning.
- Abstract(参考訳): ゲームは人工知能の進歩のベンチマークとして長い歴史を持つ。
近年,探索学習を用いた手法は,完全情報ゲームの集合において高い性能を示し,ゲーム理論推論と学習を用いた手法は,特定の不完全情報ポーカーの変種に対して強い性能を示した。
ゲームプレイヤ(Player of Games)は,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた,従来のアプローチを統一した汎用アルゴリズムである。
Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。
プレイヤ・オブ・ゲームは,計算時間と近似能力が増大するにつれて,完全プレイに収束する。
プレイヤー・オブ・ゲームズはチェスと囲碁で強いパフォーマンスを達成し、無期限のテキサスホールディングス・ポーカー(スラムボット)で最強の公開エージェントを破り、スコットランドヤードの最先端エージェントを破り、ガイド付き検索、学習、ゲーム理論の推論の価値を示す不完全な情報ゲームとなる。
関連論文リスト
- Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。
我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。
我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文 参考訳(メタデータ) (2024-10-17T11:16:27Z) - Games for Artificial Intelligence Research: A Review and Perspectives [4.44336371847479]
本稿では,人工知能研究のためのゲームとゲームベースのプラットフォームについてレビューする。
特定のタイプの人工知能と、適切な人工知能技術を用いて、ゲームにおける特定のニーズをテストし、マッチングするための適切なゲームとのマッチングに関するガイダンスを提供する。
論文 参考訳(メタデータ) (2023-04-26T03:42:31Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。
本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文 参考訳(メタデータ) (2020-05-04T16:58:17Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。