論文の概要: Playing Board Games with the Predict Results of Beam Search Algorithm
- arxiv url: http://arxiv.org/abs/2404.16072v1
- Date: Tue, 23 Apr 2024 20:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:22:04.753216
- Title: Playing Board Games with the Predict Results of Beam Search Algorithm
- Title(参考訳): ビームサーチアルゴリズムの予測結果を用いたボードゲーム
- Authors: Sergey Pastukhov,
- Abstract要約: 本稿では,PROBS(Predict Results of Beam Search)と呼ぶ完全情報を持つ2プレイヤー決定型ゲームのための新しいアルゴリズムを提案する。
提案手法は,ベースライン対戦相手に対する勝利率の増大を連続的に示すボードゲームの中から,アルゴリズムの性能を評価する。
この研究の重要な結果は、ビーム探索サイズがゲームの平均ターン数よりもかなり小さい場合でも、PROBSアルゴリズムが効果的に動作することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel algorithm for two-player deterministic games with perfect information, which we call PROBS (Predict Results of Beam Search). Unlike existing methods that predominantly rely on Monte Carlo Tree Search (MCTS) for decision processes, our approach leverages a simpler beam search algorithm. We evaluate the performance of our algorithm across a selection of board games, where it consistently demonstrates an increased winning ratio against baseline opponents. A key result of this study is that the PROBS algorithm operates effectively, even when the beam search size is considerably smaller than the average number of turns in the game.
- Abstract(参考訳): 本稿では,PROBS(Predict Results of Beam Search)と呼ばれる完全情報を持つ2プレイヤー決定型ゲームのための新しいアルゴリズムを提案する。
決定過程においてモンテカルロ木探索(MCTS)に大きく依存する既存の手法とは異なり,本手法は単純なビーム探索アルゴリズムを利用する。
提案手法は,ベースライン対戦相手に対する勝利率の増大を連続的に示すボードゲームの中から,アルゴリズムの性能を評価する。
この研究の重要な結果は、ビーム探索サイズがゲームの平均ターン数よりもかなり小さい場合でも、PROBSアルゴリズムが効果的に動作することである。
関連論文リスト
- Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - A Generalized Extensive-Form Fictitious Play Algorithm [0.0]
両プレイヤー・ゼロサムゲームの平衡を求めるための単純な拡張形式アルゴリズムを提案する。
我々は,その性能を,類似の広義の虚偽プレイアルゴリズムと反実的後悔最小化アルゴリズムとを比較した。
論文 参考訳(メタデータ) (2023-10-14T20:18:49Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - Scalable Online Planning via Reinforcement Learning Fine-Tuning [25.27878823988181]
タブラル探索法は,探索空間のサイズに匹敵しない。
我々はこれを、強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換える。
特に,検索アルゴリズムを用いて,ハナビを自己再生する手法を提案する。
論文 参考訳(メタデータ) (2021-09-30T17:59:11Z) - Algorithm Selection on a Meta Level [58.720142291102135]
本稿では,与えられたアルゴリズムセレクタの組み合わせに最適な方法を求めるメタアルゴリズム選択の問題を紹介する。
本稿では,メタアルゴリズム選択のための一般的な方法論フレームワークと,このフレームワークのインスタンス化として具体的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-20T11:23:21Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。