論文の概要: Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search
- arxiv url: http://arxiv.org/abs/2005.11335v1
- Date: Fri, 22 May 2020 18:02:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:33:02.041232
- Title: Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search
- Title(参考訳): モンテカルロ木探索を用いたポリシー反復による単一エージェント最適化
- Authors: Arta Seify and Michael Buro
- Abstract要約: モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
- 参考スコア(独自算出の注目度): 8.22379888383833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The combination of Monte-Carlo Tree Search (MCTS) and deep reinforcement
learning is state-of-the-art in two-player perfect-information games. In this
paper, we describe a search algorithm that uses a variant of MCTS which we
enhanced by 1) a novel action value normalization mechanism for games with
potentially unbounded rewards (which is the case in many optimization
problems), 2) defining a virtual loss function that enables effective search
parallelization, and 3) a policy network, trained by generations of self-play,
to guide the search. We gauge the effectiveness of our method in "SameGame"---a
popular single-player test domain. Our experimental results indicate that our
method outperforms baseline algorithms on several board sizes. Additionally, it
is competitive with state-of-the-art search algorithms on a public set of
positions.
- Abstract(参考訳): モンテカルロ・ツリー・サーチ(MCTS)と深層強化学習の組み合わせは、2プレイヤーの完全情報ゲームにおいて最先端である。
本稿では,我々が拡張したmctsの変種を用いた探索アルゴリズムについて述べる。
1)未到達の報酬(多くの最適化問題の場合)を有するゲームに対する新たなアクション値正規化機構。
2)効率的な検索並列化を可能にする仮想損失関数の定義
3) セルフプレイの世代によって訓練された政策ネットワークは,検索を誘導する。
本手法の有効性を「サミゲーム」で評価する--人気のあるシングルプレイヤーテストドメインである。
実験結果から,本手法は複数の基板サイズでベースラインアルゴリズムよりも優れていた。
さらに、公開位置における最先端の検索アルゴリズムと競合する。
関連論文リスト
- Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Injecting Combinatorial Optimization into MCTS: Application to the Board Game boop [0.0]
Combinatorial OptimizationとMonte Carlo Tree Searchを効率的に組み合わせることができる。
我々の手法はモンテカルロ木探索アルゴリズムのベースラインの96%を上回りました。
我々は,ボードゲームアリーナプラットフォーム上での人間プレイヤーに対するAI手法に反対した。
論文 参考訳(メタデータ) (2024-06-13T02:55:08Z) - Playing Board Games with the Predict Results of Beam Search Algorithm [0.0]
本稿では,PROBS(Predict Results of Beam Search)と呼ぶ完全情報を持つ2プレイヤー決定型ゲームのための新しいアルゴリズムを提案する。
提案手法は,ベースライン対戦相手に対する勝利率の増大を連続的に示すボードゲームの中から,アルゴリズムの性能を評価する。
この研究の重要な結果は、ビーム探索サイズがゲームの平均ターン数よりもかなり小さい場合でも、PROBSアルゴリズムが効果的に動作することである。
論文 参考訳(メタデータ) (2024-04-23T20:10:27Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Proof Number Based Monte-Carlo Tree Search [1.93674821880689]
本稿では,モンテカルロ木探索(MCTS)とProof-Number Search(PNS)を組み合わせた新しいゲーム検索アルゴリズムであるPN-MCTSを提案する。
本研究は,MCTS木に蓄積された証明値と防腐数から得られる付加的な知識を活用可能な3つの領域を定義する。
実験の結果、PN-MCTSは全てのテストされたゲーム領域でMCTSを上回り、ライン・オブ・アクションで96.2%の勝利率を達成した。
論文 参考訳(メタデータ) (2023-03-16T16:27:07Z) - Spending Thinking Time Wisely: Accelerating MCTS with Virtual Expansions [89.89612827542972]
本稿では,モンテカルロ木探索 (MCTS) の変種を提案する。
9倍のGoボードゲームとAtariゲームの性能と計算結果を評価した。
実験の結果,提案手法は,平均検索時間50%以下で,元の検索アルゴリズムに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-23T06:39:20Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search [66.34387649910046]
モンテカルロ木探索(MCTS)は、囲碁やアタリゲームなど多くの領域で最先端の結果を得た。
我々は,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:49:25Z) - Monte Carlo Tree Search for a single target search game on a 2-D lattice [0.0]
このプロジェクトは、AIプレイヤーが2次元格子内で静止目標を探索するゲームを想像する。
動物捕食行動のモデルであるレヴィ飛行探索(Levi Flight Search)と比較した。
論文 参考訳(メタデータ) (2020-11-29T01:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。