論文の概要: An AlphaZero-Inspired Approach to Solving Search Problems
- arxiv url: http://arxiv.org/abs/2207.00919v1
- Date: Sat, 2 Jul 2022 23:39:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 13:05:28.007869
- Title: An AlphaZero-Inspired Approach to Solving Search Problems
- Title(参考訳): AlphaZeroによる探索問題の解法
- Authors: Evgeny Dantsin, Vladik Kreinovich, and Alexander Wolpert
- Abstract要約: 探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
- 参考スコア(独自算出の注目度): 63.24965775030674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AlphaZero and its extension MuZero are computer programs that use
machine-learning techniques to play at a superhuman level in chess, go, and a
few other games. They achieved this level of play solely with reinforcement
learning from self-play, without any domain knowledge except the game rules. It
is a natural idea to adapt the methods and techniques used in AlphaZero for
solving search problems such as the Boolean satisfiability problem (in its
search version). Given a search problem, how to represent it for an
AlphaZero-inspired solver? What are the "rules of solving" for this search
problem? We describe possible representations in terms of easy-instance solvers
and self-reductions, and we give examples of such representations for the
satisfiability problem. We also describe a version of Monte Carlo tree search
adapted for search problems.
- Abstract(参考訳): AlphaZeroとその拡張であるMuZeroは、チェス、ゴー、その他のいくつかのゲームにおいて超人的なレベルでのプレイに機械学習技術を使用するコンピュータプログラムである。
彼らはこのレベルのプレイを、ゲームルール以外のドメイン知識なしで、自己プレイからの強化学習だけで達成した。
AlphaZero で用いられている手法や技法を Boolean satisfiability 問題 (検索版) のような探索問題に適応させることは自然な考えである。
検索問題があれば、AlphaZeroにインスパイアされた解法をどう表現するか?
この検索問題に対する「解決のルール」とは何か?
我々は, 解法や自己帰納法の観点から可能な表現を記述し, 充足可能性問題に対するそのような表現の例を示す。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
関連論文リスト
- Semi-Strongly solved: a New Definition Leading Computer to Perfect Gameplay [0.0]
「ゲーム解決のための定義はいくつかあるが、計算コストと導出した洞察の詳細については明らかに異なる。」
半強解」と呼ばれる新しい定義を導入し、このタイプの解を効率的に実現するためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:00:46Z) - People use fast, goal-directed simulation to reason about novel games [75.25089384921557]
我々は,シンプルだが斬新なコネクテッドnスタイルのボードゲームについて,人々がどう考えるかを研究する。
ゲームがどんなに公平か、そしてどんなに楽しいのかを、ごくわずかな経験から判断するよう、私たちは人々に求めます。
論文 参考訳(メタデータ) (2024-07-19T07:59:04Z) - Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - A Novel Approach to Solving Goal-Achieving Problems for Board Games [8.882671058559016]
本稿では、まず、GoのL&D問題を解決するために、RZベースサーチ(RZS)と呼ばれる新しいRZベースのアプローチを提案する。
RZSは、Nullがポストホックであるかどうかを決定する前に動きを試みます。
また、AlphaZeroを改良してより高速に勝利させるFTL(Faster to Life)という新たなトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-05T13:23:10Z) - Solving QSAT problems with neural MCTS [0.0]
AlphaZeroの自己再生による最近の成果は、いくつかのボードゲームで顕著なパフォーマンスを示しています。
本稿では,alphazeroのコアアルゴリズムであるneural monte carlo tree search(neural mcts)の計算能力を活用しようとする。
すべての QSAT 問題が QSAT ゲームと等価であることを知ると、ゲームの結果は元の QSAT 問題の解を導出するために用いられる。
論文 参考訳(メタデータ) (2021-01-17T08:20:07Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。