論文の概要: A Novel Approach to Solving Goal-Achieving Problems for Board Games
- arxiv url: http://arxiv.org/abs/2112.02563v1
- Date: Sun, 5 Dec 2021 13:23:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 15:07:29.528464
- Title: A Novel Approach to Solving Goal-Achieving Problems for Board Games
- Title(参考訳): ボードゲームにおけるゴール達成問題に対する新しいアプローチ
- Authors: Chung-Chin Shih, Ti-Rong Wu, Ting Han Wei, and I-Chen Wu
- Abstract要約: 本稿では、まず、GoのL&D問題を解決するために、RZベースサーチ(RZS)と呼ばれる新しいRZベースのアプローチを提案する。
RZSは、Nullがポストホックであるかどうかを決定する前に動きを試みます。
また、AlphaZeroを改良してより高速に勝利させるFTL(Faster to Life)という新たなトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 8.882671058559016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-achieving problems are puzzles that set up a specific situation with a
clear objective. An example that is well-studied is the category of
life-and-death (L&D) problems for Go, which helps players hone their skill of
identifying region safety. Many previous methods like lambda search try null
moves first, then derive so-called relevance zones (RZs), outside of which the
opponent does not need to search. This paper first proposes a novel RZ-based
approach, called the RZ-Based Search (RZS), to solving L&D problems for Go. RZS
tries moves before determining whether they are null moves post-hoc. This means
we do not need to rely on null move heuristics, resulting in a more elegant
algorithm, so that it can also be seamlessly incorporated into AlphaZero's
super-human level play in our solver. To repurpose AlphaZero for solving, we
also propose a new training method called Faster to Life (FTL), which modifies
AlphaZero to entice it to win more quickly. We use RZS and FTL to solve L&D
problems on Go, namely solving 68 among 106 problems from a professional L&D
book while a previous program solves 11 only. Finally, we discuss that the
approach is generic in the sense that RZS is applicable to solving many other
goal-achieving problems for board games.
- Abstract(参考訳): 目標達成問題は、明確な目的を持って特定の状況を設定するパズルである。
よく研究されている例としては、goのl&d(life-and-death)問題のカテゴリがある。
ラムダ検索のような多くの従来のメソッドは、まずnullを移動させ、次に、相手が検索する必要のないいわゆるRZ(relevance Zone)を導出する。
本稿では、まず、GoのL&D問題を解決するために、RZベースサーチ(RZS)と呼ばれる新しいRZベースのアプローチを提案する。
RZSは、Nullがポストホックであるかどうかを決定する前に動きを試みる。
これは、Null move heuristicsに頼る必要がなく、よりエレガントなアルゴリズムとなり、AlphaZeroの超人間レベルプレイにシームレスに組み込むこともできることを意味している。
問題解決のためにAlphaZeroを再利用するために,AlphaZeroを改良してより高速に勝利させるFTL(Faster to Life)という新たなトレーニング手法を提案する。
RZS と FTL を用いて Go 上の L&D 問題を解き、すなわちプロの L&D 書籍から 106 問題を解き、以前のプログラムでは 11 を解いた。
最後に、RZSがボードゲームにおける他のゴール達成問題の解決に適用可能であるという意味で、このアプローチが汎用的であることを論じる。
関連論文リスト
- Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - Responsible AI (RAI) Games and Ensembles [30.110052769733247]
本稿では,Responsible AI(RAI)ゲーム(Responsible AI)と呼ばれる問題を研究するための一般的なフレームワークを提供する。
a)ゲームプレイベースアルゴリズムと(b)ステージワイズ推定アルゴリズムの2つのクラスを提供する。
我々は、いくつかのRAI問題、特にサブポピュレーションシフトに関して、我々の技術の適用性と競争性能を実証的に実証した。
論文 参考訳(メタデータ) (2023-10-28T22:17:30Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Guessing Winning Policies in LTL Synthesis by Semantic Learning [0.0]
合成問題から派生したパリティゲームにおいて,勝利戦略を推測する学習に基づく手法を提案する。
ゲームの大きさが厳密なアプローチを禁止している場合に、予想される戦略を最善策として適用できるだけでなく、厳密な合成のスケーラビリティをいくつかの方法で向上させることもできる。
論文 参考訳(メタデータ) (2023-05-24T12:57:53Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - Learning in Mean Field Games: A Survey [44.93300994923148]
平均フィールドゲームズ(MFG)は、プレイヤーの数を無限に増やすために平均フィールド近似に依存する。
MFGにおけるリベリアと社会的最適化のための強化学習法に関する最近の研究
本稿では,MFGを正確に解くための古典的反復法に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:49:37Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。