論文の概要: Search in Imperfect Information Games
- arxiv url: http://arxiv.org/abs/2111.05884v1
- Date: Wed, 10 Nov 2021 19:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-13 06:00:48.903890
- Title: Search in Imperfect Information Games
- Title(参考訳): 不完全な情報ゲームにおける検索
- Authors: Martin Schmid
- Abstract要約: この分野の幕開け以来、価値関数による探索はコンピュータゲーム研究の基本的な概念であった。
TD-Gammonはこれらのアイデアを改善し、ニューラルネットワークを使って複雑な値関数を学習する。
最近まで、(学習した)値関数で助けられたこの強力な検索フレームワークは、完全な情報ゲームに限られていた。
本論文では,不完全な情報ゲームに対する音声検索について紹介する。
- 参考スコア(独自算出の注目度): 5.614519484892093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: From the very dawn of the field, search with value functions was a
fundamental concept of computer games research. Turing's chess algorithm from
1950 was able to think two moves ahead, and Shannon's work on chess from $1950$
includes an extensive section on evaluation functions to be used within a
search. Samuel's checkers program from 1959 already combines search and value
functions that are learned through self-play and bootstrapping. TD-Gammon
improves upon those ideas and uses neural networks to learn those complex value
functions -- only to be again used within search. The combination of
decision-time search and value functions has been present in the remarkable
milestones where computers bested their human counterparts in long standing
challenging games -- DeepBlue for Chess and AlphaGo for Go. Until recently,
this powerful framework of search aided with (learned) value functions has been
limited to perfect information games. As many interesting problems do not
provide the agent perfect information of the environment, this was an
unfortunate limitation. This thesis introduces the reader to sound search for
imperfect information games.
- Abstract(参考訳): この分野の初期から、価値関数による探索はコンピュータゲーム研究の基本的な概念であった。
1950年のチューリングのチェスアルゴリズムは2つの前進を考えることができ、シャノンの1950ドルのチェスに関する研究には、探索で使われる評価関数に関する広範なセクションが含まれている。
1959年のsamuel's checkersプログラムは、セルフプレイとブートストラップによって学習される検索と値関数をすでに組み合わせている。
td-gammonはこれらのアイデアを改善し、ニューラルネットワークを使ってこれらの複雑な値関数を学習します。
DeepBlue for ChessやAlphaGo for Goといった長きにわたる挑戦的なゲームにおいて、コンピュータが人間に優越するという驚くべきマイルストーンに、意思決定時検索と価値関数の組み合わせが存在している。
最近まで、(学習された)値関数による検索の強力なフレームワークは、完全な情報ゲームに限定されてきた。
多くの興味深い問題がエージェントの完全な環境情報を提供していないため、これは不運な制限であった。
本論文では,不完全な情報ゲームの音声検索を読者に導入する。
関連論文リスト
- Improve Value Estimation of Q Function and Reshape Reward with Monte Carlo Tree Search [0.4450107621124637]
強化学習は、GoやAtariといった完璧な情報ゲームで大きな成功を収めた。
不完全な情報ゲームのための強化学習の研究は、より複雑なゲーム構造とランダム性のために比較的限られている。
本稿では,不完全な情報ゲームであるUnoに着目し,Q値過大評価を減らし,報酬関数を書き換えることにより,これらの問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-15T14:31:54Z) - People use fast, goal-directed simulation to reason about novel games [75.25089384921557]
我々は,シンプルだが斬新なコネクテッドnスタイルのボードゲームについて,人々がどう考えるかを研究する。
ゲームがどんなに公平か、そしてどんなに楽しいのかを、ごくわずかな経験から判断するよう、私たちは人々に求めます。
論文 参考訳(メタデータ) (2024-07-19T07:59:04Z) - History Filtering in Imperfect Information Games: Algorithms and
Complexity [16.23892847804002]
本稿では,サブゲーム分解のためのフィルタリング履歴の計算的側面とトラクタビリティについて述べる。
サブゲームのルートから単一の履歴を構築することは、一般的には難解であることを示す。
また,トリックテイクカードゲームのためのマルコフチェインモンテカルロベース生成アルゴリズムについても紹介する。
論文 参考訳(メタデータ) (2023-11-24T18:34:36Z) - Learning to Play Chess from Textbooks (LEAP): a Corpus for Evaluating
Chess Moves based on Sentiment Analysis [4.314956204483074]
本稿では,チェスの遊び方を学ぶための新しい知識源として,チェスの教科書について検討する。
我々はLEAPコーパスを開発した。LEAPコーパスは、構造化された(記法やボード状態を動かす)構造付きおよび非構造化データを備えた、最初の、そして新しい異種データセットである。
感情分析のための各種変圧器ベースラインモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2023-10-31T08:26:02Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - Student of Games: A unified learning algorithm for both perfect and
imperfect information games [22.97853623156316]
Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
論文 参考訳(メタデータ) (2021-12-06T17:16:24Z) - Teach me to play, gamer! Imitative learning in computer games via
linguistic description of complex phenomena and decision tree [55.41644538483948]
本稿では,複雑な現象の言語記述に基づく模倣による新しい機械学習モデルを提案する。
この手法は,ゲーム開発における知的エージェントの動作を設計し,実装するための優れた代替手段となる。
論文 参考訳(メタデータ) (2021-01-06T21:14:10Z) - Playing Chess with Limited Look Ahead [0.0]
静的評価関数として機能するために、ディープニューラルネットワークをトレーニングする。
我々は,我々の静的評価関数が,先見的な知識をコード化していることを示す。
先見深度に厳格な制限があるにもかかわらず、我々のエンジンはサンプル位置の約83%で同等の強度の移動を推奨している。
論文 参考訳(メタデータ) (2020-07-04T16:02:43Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。