論文の概要: Beyond Games: A Systematic Review of Neural Monte Carlo Tree Search
Applications
- arxiv url: http://arxiv.org/abs/2303.08060v1
- Date: Tue, 14 Mar 2023 16:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:08:55.349391
- Title: Beyond Games: A Systematic Review of Neural Monte Carlo Tree Search
Applications
- Title(参考訳): Beyond Games: ニューラルモンテカルロ木探索アプリケーションのシステムレビュー
- Authors: Marco Kemmerling, Daniel L\"utticke, Robert H. Schmitt
- Abstract要約: ゲーム以外の領域におけるニューラルモンテカルロ木探索法の適用について,129の論文を概説する。
我々の目標は、そのような手法が実際にどのように構成されているか、そしてその成功を他のドメインに拡張できるかどうかを体系的に評価することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of AlphaGo and its successors marked the beginning of a new
paradigm in playing games using artificial intelligence. This was achieved by
combining Monte Carlo tree search, a planning procedure, and deep learning.
While the impact on the domain of games has been undeniable, it is less clear
how useful similar approaches are in applications beyond games and how they
need to be adapted from the original methodology. We review 129 peer-reviewed
articles detailing the application of neural Monte Carlo tree search methods in
domains other than games. Our goal is to systematically assess how such methods
are structured in practice and if their success can be extended to other
domains. We find applications in a variety of domains, many distinct ways of
guiding the tree search using learned policy and value functions, and various
training methods. Our review maps the current landscape of algorithms in the
family of neural monte carlo tree search as they are applied to practical
problems, which is a first step towards a more principled way of designing such
algorithms for specific problems and their requirements.
- Abstract(参考訳): AlphaGoとその後継者の出現は、人工知能を使ってゲームをする新しいパラダイムの始まりとなった。
これはモンテカルロ木探索、計画手順、深層学習を組み合わせることで達成された。
ゲーム領域への影響は否定できないが、ゲーム以外のアプリケーションで同様のアプローチがどの程度有用か、元の方法論からどのように適用する必要があるかは、はっきりしない。
ゲーム以外の領域におけるニューラルモンテカルロ木探索法の適用について,129のピアレビュー論文をレビューする。
私たちの目標は、そのようなメソッドが実際にどのように構成されているか、その成功を他のドメインに拡張できるかを体系的に評価することにあります。
我々は、様々な領域の応用、学習したポリシーと値関数を用いて木探索を導く多くの異なる方法、および様々なトレーニング方法を見つける。
本稿では, ニューラルネットワークによるモンテカルロ木探索を実践的な問題に適用し, 特定の問題とその要求に対して, アルゴリズムを設計する上で, より原則的な方法に向けた第一歩として, アルゴリズムの現在の状況について概説する。
関連論文リスト
- Improve Value Estimation of Q Function and Reshape Reward with Monte Carlo Tree Search [0.4450107621124637]
強化学習は、GoやAtariといった完璧な情報ゲームで大きな成功を収めた。
不完全な情報ゲームのための強化学習の研究は、より複雑なゲーム構造とランダム性のために比較的限られている。
本稿では,不完全な情報ゲームであるUnoに着目し,Q値過大評価を減らし,報酬関数を書き換えることにより,これらの問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-15T14:31:54Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - An Approach for Combining Multimodal Fusion and Neural Architecture
Search Applied to Knowledge Tracing [6.540879944736641]
本稿では,マルチモーダル融合とニューラルアーキテクチャ探索を組み合わせた逐次モデルに基づく最適化手法を提案する。
得られたモデルが優れた性能を達成できることを示す2つの公開実データに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T13:43:46Z) - Meta Navigator: Search for a Good Adaptation Policy for Few-shot
Learning [113.05118113697111]
少ないショット学習は、ラベル付きデータしか持たない新しいタスクに、以前のタスクから学んだ知識を適応させることを目的としている。
少数ショット学習に関する研究文献は、大きな多様性を示し、異なるアルゴリズムは、しばしば異なる少数ショット学習シナリオで優れている。
本稿では,メタナビゲータ(Meta Navigator)について紹介する。
論文 参考訳(メタデータ) (2021-09-13T07:20:01Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Monte-Carlo Graph Search for AlphaZero [15.567057178736402]
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-12-20T22:51:38Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。