Fugu-MT 論文翻訳(概要): Player of Games

論文の概要: Player of Games

arxiv url: http://arxiv.org/abs/2112.03178v1
Date: Mon, 6 Dec 2021 17:16:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-07 15:37:26.696099
Title: Player of Games
Title（参考訳）: ゲームのプレーヤー
Authors: Martin Schmid, Matej Moravcik, Neil Burch, Rudolf Kadlec, Josh Davidson, Kevin Waugh, Nolan Bard, Finbarr Timbers, Marc Lanctot, Zach Holland, Elnaz Davoodi, Alden Christianson, Michael Bowling
Abstract要約: Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。プレイヤ・オブ・ゲームは,有効時間と計算能力が増大するにつれて,完全プレイに収束する。
参考スコア（独自算出の注目度）: 20.88939316658193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Games have a long history of serving as a benchmark for progress in artificial intelligence. Recently, approaches using search and learning have shown strong performance across a set of perfect information games, and approaches using game-theoretic reasoning and learning have shown strong performance for specific imperfect information poker variants. We introduce Player of Games, a general-purpose algorithm that unifies previous approaches, combining guided search, self-play learning, and game-theoretic reasoning. Player of Games is the first algorithm to achieve strong empirical performance in large perfect and imperfect information games -- an important step towards truly general algorithms for arbitrary environments. We prove that Player of Games is sound, converging to perfect play as available computation time and approximation capacity increases. Player of Games reaches strong performance in chess and Go, beats the strongest openly available agent in heads-up no-limit Texas hold'em poker (Slumbot), and defeats the state-of-the-art agent in Scotland Yard, an imperfect information game that illustrates the value of guided search, learning, and game-theoretic reasoning.
Abstract（参考訳）: ゲームは人工知能の進歩のベンチマークとして長い歴史を持つ。近年,探索学習を用いた手法は,完全情報ゲームの集合において高い性能を示し,ゲーム理論推論と学習を用いた手法は,特定の不完全情報ポーカーの変種に対して強い性能を示した。ゲームプレイヤ(Player of Games)は,ガイド付き検索,自己学習,ゲーム理論推論を組み合わせた,従来のアプローチを統一した汎用アルゴリズムである。 Player of Gamesは、大規模な完全かつ不完全な情報ゲームにおいて、強力な経験的パフォーマンスを達成した最初のアルゴリズムである。プレイヤ・オブ・ゲームは,計算時間と近似能力が増大するにつれて,完全プレイに収束する。プレイヤー・オブ・ゲームズはチェスと囲碁で強いパフォーマンスを達成し、無期限のテキサスホールディングス・ポーカー(スラムボット)で最強の公開エージェントを破り、スコットランドヤードの最先端エージェントを破り、ガイド付き検索、学習、ゲーム理論の推論の価値を示す不完全な情報ゲームとなる。

関連論文リスト

How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。 LLMは従来のアルゴリズムと競合しない。ツール統合推論フレームワークであるToolPokerを提案する。
論文参考訳（メタデータ） (2026-01-31T05:45:25Z)
Outer-Learning Framework for Playing Multi-Player Trick-Taking Card Games: A Case Study in Skat [1.7006003864727406]
SkatやBridgeのようなマルチプレイヤーカードゲームでは、ゲームの初期ステージは、洗練された中盤や終盤のプレイよりも、ゲームの成功に批判的になることが多い。本稿では,人間ゲームのデータベースを数百万のAIゲームで拡張し,統計生成とマージによって予測精度を向上させる,一般的なブートストラップ外学習フレームワークを考案し,評価する。我々は、コンパクト化されたテーブルに対処するための完璧な機能ハッシュ関数を実装し、自己学習中に新たに推論された知識を継続的に改善する自己改善カードゲームエンジンを生成する。
論文参考訳（メタデータ） (2025-12-17T13:27:44Z)
People use fast, flat goal-directed simulation to reason about novel problems [68.55490343866545]
私たちは、人々が初めてゲームをする方法に体系的かつ適応的に合理的であることを示します。直感型ゲーマー」と呼ばれる計算認知モデルを用いて,これらの能力を説明する。私たちの研究は、人々が新しい問題に遭遇するとき、どのように素早く評価し、行動し、提案するかに関する新しい洞察を提供する。
論文参考訳（メタデータ） (2025-10-13T15:12:08Z)
Look-ahead Reasoning with a Learned Model in Imperfect Information Games [3.4935179780034242]
本稿では,エージェントと環境の相互作用から不完全情報ゲームの抽象モデルを直接学習するアルゴリズムを提案する。テスト期間中、このトレーニングされたモデルは、ルックアヘッド推論を実行するために使用されます。 LAMIRは十分なキャパシティで正確なゲーム構造を学習し、限られたキャパシティではまだ貴重な抽象化を学習していることを実証的に実証する。
論文参考訳（メタデータ） (2025-10-06T17:26:56Z)
General search techniques without common knowledge for imperfect-information games, and application to superhuman Fog of War chess [68.20244032271847]
我々は、戦争チェスのための最初の超人的AIであるObscuroを提示する。不完全な情報ゲームにおける検索の進歩を導入し、強力でスケーラブルな推論を可能にした。最先端のAIと人間のプレーヤーに対する実験は、Obscuroがかなり強いことを示している。
論文参考訳（メタデータ） (2025-06-02T01:41:27Z)
Study and improvement of search algorithms in two-players perfect information games [0.0]
完全情報を持つ2プレイヤーゼロサムゲームの新しい探索アルゴリズムを提案する。短い検索期間で、この大規模な実験では、すべてのゲームで研究対象のアルゴリズムを上回ります。また,中程度の検索時間では,22ゲーム中17ゲームにおいて,すべての学習アルゴリズムを上回ります。
論文参考訳（メタデータ） (2025-05-06T19:29:59Z)
Instruction-Driven Game Engine: A Poker Case Study [53.689520884467065]
IDGEプロジェクトは、大規模言語モデルで自由形式のゲーム記述を追従し、ゲームプレイプロセスを生成することにより、ゲーム開発を民主化することを目的としている。我々は、複雑なシナリオへの露出を徐々に増大させるカリキュラム方式でIDGEを訓練する。我々の最初の進歩はポーカーのIDGEの開発であり、これは幅広いポーカーの変種をサポートするだけでなく、自然言語入力を通じて高度に個別化された新しいポーカーゲームを可能にする。
論文参考訳（メタデータ） (2024-10-17T11:16:27Z)
Games for Artificial Intelligence Research: A Review and Perspectives [4.44336371847479]
本稿では,人工知能研究のためのゲームとゲームベースのプラットフォームについてレビューする。特定のタイプの人工知能と、適切な人工知能技術を用いて、ゲームにおける特定のニーズをテストし、マッチングするための適切なゲームとのマッチングに関するガイダンスを提供する。
論文参考訳（メタデータ） (2023-04-26T03:42:31Z)
The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文参考訳（メタデータ） (2023-04-25T20:28:55Z)
Learning to Play Stochastic Two-player Perfect-Information Games without Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。最良の結果を得るのはDescentの一般化である。
論文参考訳（メタデータ） (2023-02-08T20:27:45Z)
Revisiting Game Representations: The Hidden Costs of Efficiency in Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文参考訳（メタデータ） (2021-12-20T22:34:19Z)
ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-15T12:01:44Z)
An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文参考訳（メタデータ） (2021-01-31T10:30:48Z)
Deep Reinforcement Learning with Stacked Hierarchical Attention for Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文参考訳（メタデータ） (2020-10-22T12:40:22Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)
Navigating the Landscape of Multiplayer Games [20.483315340460127]
大規模ゲームの応答グラフにネットワーク測度を適用することで,ゲームのランドスケープを創出できることを示す。本研究は, 標準ゲームから複雑な経験ゲームまで, 訓練されたエージェント同士のパフォーマンスを計測する領域における知見について述べる。
論文参考訳（メタデータ） (2020-05-04T16:58:17Z)
Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文参考訳（メタデータ） (2020-02-24T20:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。