論文の概要: First-Order Problem Solving through Neural MCTS based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2101.04167v1
- Date: Mon, 11 Jan 2021 19:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 15:48:58.472588
- Title: First-Order Problem Solving through Neural MCTS based Reinforcement
Learning
- Title(参考訳): ニューラルネットワークによる強化学習による一階問題の解法
- Authors: Ruiyang Xu, Prashank Kadam, Karl Lieberherr
- Abstract要約: 多くの問題は解釈されたFOL文を使って記述することができ、セマンティックゲームにマッピングすることができる。
本稿では,問題のfol記述を意味ゲームにマップする汎用フレームワークであるpersephoneを提案する。
Persephone の目標は,FOL に記述された問題を人間の介入なしに解にマッピングすることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The formal semantics of an interpreted first-order logic (FOL) statement can
be given in Tarskian Semantics or a basically equivalent Game Semantics. The
latter maps the statement and the interpretation into a two-player semantic
game. Many combinatorial problems can be described using interpreted FOL
statements and can be mapped into a semantic game. Therefore, learning to play
a semantic game perfectly leads to the solution of a specific instance of a
combinatorial problem. We adapt the AlphaZero algorithm so that it becomes
better at learning to play semantic games that have different characteristics
than Go and Chess. We propose a general framework, Persephone, to map the FOL
description of a combinatorial problem to a semantic game so that it can be
solved through a neural MCTS based reinforcement learning algorithm. Our goal
for Persephone is to make it tabula-rasa, mapping a problem stated in
interpreted FOL to a solution without human intervention.
- Abstract(参考訳): 解釈された一階述語論理(fol)文の形式的意味論は、タルスキー意味論または基本的に等価なゲーム意味論で与えられる。
後者は文と解釈を2人のプレイヤーによるセマンティクスゲームにマップする。
多くの組合せ問題は、解釈されたfol文を使って記述でき、意味ゲームにマッピングできる。
したがって、セマンティックゲームをプレイすることを学ぶことは、組合せ問題の特定の事例の解決につながる。
alphazeroアルゴリズムを採用することで、goやチェスと異なる特性を持つセマンティクスゲームを学べるようにしています。
本稿では,組換え問題のFOL記述を意味ゲームにマッピングして,ニューラルネットワークMCTSに基づく強化学習アルゴリズムを用いて解くための汎用フレームワークPersephoneを提案する。
Persephone の目標は,FOL に記述された問題を人間の介入なしに解にマッピングすることである。
関連論文リスト
- Guessing Winning Policies in LTL Synthesis by Semantic Learning [0.0]
合成問題から派生したパリティゲームにおいて,勝利戦略を推測する学習に基づく手法を提案する。
ゲームの大きさが厳密なアプローチを禁止している場合に、予想される戦略を最善策として適用できるだけでなく、厳密な合成のスケーラビリティをいくつかの方法で向上させることもできる。
論文 参考訳(メタデータ) (2023-05-24T12:57:53Z) - Truth and Preferences -- A Game Approach for Qualitative Choice Logic [2.28438857884398]
質的選択論理(QCL)のためのゲーム理論意味論(GTS)を導入する。
GTSは古典命題論理を拡張し、順序解法と呼ばれる接続性を持つ。
ゲームセマンティクスを利用して,QCLの言語に対する新たなセマンティクスを導出できることを示す。
論文 参考訳(メタデータ) (2022-09-26T15:36:23Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - Near-Optimal Learning of Extensive-Form Games with Imperfect Information [54.55092907312749]
本稿では,2プレイヤーゼロサムゲームにおいて,$widetildemathcalO((XA+YB)/varepsilon2)$プレイのエピソードのみを必要とするアルゴリズムの最初の行を,$varepsilon$-approximate Nash平衡を求める。
これにより$widetildemathcalO((X2A+Y2B)/varepsilon2)$が$widetildemathcalO(maxX,
論文 参考訳(メタデータ) (2022-02-03T18:18:28Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z) - Quantum-over-classical Advantage in Solving Multiplayer Games [0.0]
サブトラクションゲームはワンヒープニムゲームと呼ばれることもある。
量子ゲーム理論において、サブトラクションゲームの部分集合は、ゼロサムゲームの最初の明示的に定義されたクラスとなった。
サブトラクションゲームのより狭い部分集合については、すべての決定論的アルゴリズムを超える正確な量子サブ線形アルゴリズムが知られている。
論文 参考訳(メタデータ) (2020-06-12T06:36:07Z) - Smooth markets: A basic mechanism for organizing gradient-based learners [47.34060971879986]
スムーズマーケット(SM-games)は、対角にゼロ和の相互作用を持つn-プレイヤゲームの一種である。
SMゲームは、(一部)GAN、敵対的トレーニング、その他の最近のアルゴリズムを含む、機械学習における一般的なデザインパターンを符号化する。
SMゲームは1次手法を用いて解析と最適化が可能であることを示す。
論文 参考訳(メタデータ) (2020-01-14T09:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。