Fugu-MT 論文翻訳(概要): Student of Games: A unified learning algorithm for both perfect and imperfect information games

論文の概要: Student of Games: A unified learning algorithm for both perfect and imperfect information games

arxiv url: http://arxiv.org/abs/2112.03178v2
Date: Wed, 15 Nov 2023 19:12:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 23:10:06.024913
Title: Student of Games: A unified learning algorithm for both perfect and imperfect information games
Title（参考訳）: student of games: 完全かつ不完全な情報ゲームのための統一学習アルゴリズム
Authors: Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, G. Zacharias Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling
Abstract要約: Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
参考スコア（独自算出の注目度）: 22.97853623156316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Games have a long history as benchmarks for progress in artificial intelligence. Approaches using search and learning produced strong performance across many perfect information games, and approaches using game-theoretic reasoning and learning demonstrated strong performance for specific imperfect information poker variants. We introduce Student of Games, a general-purpose algorithm that unifies previous approaches, combining guided search, self-play learning, and game-theoretic reasoning. Student of Games achieves strong empirical performance in large perfect and imperfect information games -- an important step towards truly general algorithms for arbitrary environments. We prove that Student of Games is sound, converging to perfect play as available computation and approximation capacity increases. Student of Games reaches strong performance in chess and Go, beats the strongest openly available agent in heads-up no-limit Texas hold'em poker, and defeats the state-of-the-art agent in Scotland Yard, an imperfect information game that illustrates the value of guided search, learning, and game-theoretic reasoning.
Abstract（参考訳）: ゲームは人工知能の進歩のベンチマークとして長い歴史がある。探索と学習のアプローチは多くの完全情報ゲームに対して強い性能を示し、ゲーム理論の推論と学習によるアプローチは、特定の不完全な情報ポーカー変種に対して強い性能を示した。我々は,従来のアプローチを統一した汎用アルゴリズムであるSings of Gamesを紹介し,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた。ゲームの学生は、巨大な完全で不完全な情報ゲームにおいて強力な経験的パフォーマンスを達成している。学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。ゲームズ・オブ・ゲームズ(英語版)はチェスと囲碁で強いパフォーマンスを獲得し、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、最先端のエージェントであるスコットランドヤード(英語版)を破り、ガイド付き検索、学習、ゲーム理論の推論の価値を描写する不完全な情報ゲームとなった。

関連論文リスト

How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。 LLMは従来のアルゴリズムと競合しない。ツール統合推論フレームワークであるToolPokerを提案する。
論文参考訳（メタデータ） (2026-01-31T05:45:25Z)
Outer-Learning Framework for Playing Multi-Player Trick-Taking Card Games: A Case Study in Skat [1.7006003864727406]
SkatやBridgeのようなマルチプレイヤーカードゲームでは、ゲームの初期ステージは、洗練された中盤や終盤のプレイよりも、ゲームの成功に批判的になることが多い。本稿では,人間ゲームのデータベースを数百万のAIゲームで拡張し,統計生成とマージによって予測精度を向上させる,一般的なブートストラップ外学習フレームワークを考案し,評価する。我々は、コンパクト化されたテーブルに対処するための完璧な機能ハッシュ関数を実装し、自己学習中に新たに推論された知識を継続的に改善する自己改善カードゲームエンジンを生成する。
論文参考訳（メタデータ） (2025-12-17T13:27:44Z)
People use fast, flat goal-directed simulation to reason about novel problems [68.55490343866545]
私たちは、人々が初めてゲームをする方法に体系的かつ適応的に合理的であることを示します。直感型ゲーマー」と呼ばれる計算認知モデルを用いて,これらの能力を説明する。私たちの研究は、人々が新しい問題に遭遇するとき、どのように素早く評価し、行動し、提案するかに関する新しい洞察を提供する。
論文参考訳（メタデータ） (2025-10-13T15:12:08Z)
Look-ahead Reasoning with a Learned Model in Imperfect Information Games [3.4935179780034242]
本稿では,エージェントと環境の相互作用から不完全情報ゲームの抽象モデルを直接学習するアルゴリズムを提案する。テスト期間中、このトレーニングされたモデルは、ルックアヘッド推論を実行するために使用されます。 LAMIRは十分なキャパシティで正確なゲーム構造を学習し、限られたキャパシティではまだ貴重な抽象化を学習していることを実証的に実証する。
論文参考訳（メタデータ） (2025-10-06T17:26:56Z)
General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess [68.20244032271847]
我々は、戦争チェスのための最初の超人的AIであるObscuroを提示する。不完全な情報ゲームにおける検索の進歩を導入し、強力でスケーラブルな推論を可能にした。最先端のAIと人間のプレーヤーに対する実験は、Obscuroがかなり強いことを示している。
論文参考訳（メタデータ） (2025-06-02T01:41:27Z)
Study and improvement of search algorithms in two-players perfect information games [0.0]
完全情報を持つ2プレイヤーゼロサムゲームの新しい探索アルゴリズムを提案する。短い検索期間で、この大規模な実験では、すべてのゲームで研究対象のアルゴリズムを上回ります。また,中程度の検索時間では,22ゲーム中17ゲームにおいて,すべての学習アルゴリズムを上回ります。
論文参考訳（メタデータ） (2025-05-06T19:29:59Z)
Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文参考訳（メタデータ） (2024-10-17T11:16:27Z)
Games for Artificial Intelligence Research: A Review and Perspectives [4.44336371847479]
本稿では,人工知能研究のためのゲームとゲームベースのプラットフォームについてレビューする。特定のタイプの人工知能と、適切な人工知能技術を用いて、ゲームにおける特定のニーズをテストし、マッチングするための適切なゲームとのマッチングに関するガイダンスを提供する。
論文参考訳（メタデータ） (2023-04-26T03:42:31Z)
The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文参考訳（メタデータ） (2023-04-25T20:28:55Z)
Learning to Play Stochastic Two-player Perfect-Information Games without Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。最良の結果を得るのはDescentの一般化である。
論文参考訳（メタデータ） (2023-02-08T20:27:45Z)
Revisiting Game Representations: The Hidden Costs of Efficiency in Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文参考訳（メタデータ） (2021-12-20T22:34:19Z)
ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-15T12:01:44Z)
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文参考訳（メタデータ） (2021-01-31T10:30:48Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)
Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文参考訳（メタデータ） (2020-05-04T16:58:17Z)
Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文参考訳（メタデータ） (2020-02-24T20:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。