論文の概要: Scalable Online Planning via Reinforcement Learning Fine-Tuning
- arxiv url: http://arxiv.org/abs/2109.15316v1
- Date: Thu, 30 Sep 2021 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 15:47:14.849523
- Title: Scalable Online Planning via Reinforcement Learning Fine-Tuning
- Title(参考訳): 強化学習ファインチューニングによるスケーラブルオンラインプランニング
- Authors: Arnaud Fickinger, Hengyuan Hu, Brandon Amos, Stuart Russell, Noam
Brown
- Abstract要約: タブラル探索法は,探索空間のサイズに匹敵しない。
我々はこれを、強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換える。
特に,検索アルゴリズムを用いて,ハナビを自己再生する手法を提案する。
- 参考スコア(独自算出の注目度): 25.27878823988181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lookahead search has been a critical component of recent AI successes, such
as in the games of chess, go, and poker. However, the search methods used in
these games, and in many other settings, are tabular. Tabular search methods do
not scale well with the size of the search space, and this problem is
exacerbated by stochasticity and partial observability. In this work we replace
tabular search with online model-based fine-tuning of a policy neural network
via reinforcement learning, and show that this approach outperforms
state-of-the-art search algorithms in benchmark settings. In particular, we use
our search algorithm to achieve a new state-of-the-art result in self-play
Hanabi, and show the generality of our algorithm by also showing that it
outperforms tabular search in the Atari game Ms. Pacman.
- Abstract(参考訳): ルックアヘッド検索は、チェス、ゴー、ポーカーといった最近のAIの成功の重要な要素である。
しかし、これらのゲームや他の多くの設定で使用される検索方法は表形式である。
表状探索法は探索空間の大きさほどスケールしないため、確率性と部分的可観測性によってこの問題は悪化する。
本研究では、グラフ検索を強化学習によるポリシーニューラルネットワークのオンラインモデルに基づく微調整に置き換え、この手法がベンチマーク設定における最先端の検索アルゴリズムよりも優れていることを示す。
特に,我々は検索アルゴリズムを用いて,ハナビの自己演奏における新たな最先端結果を実現するとともに,AtariゲームMs. Pacmanの表探索よりも優れていることを示すことで,アルゴリズムの一般性を示す。
関連論文リスト
- Playing Board Games with the Predict Results of Beam Search Algorithm [0.0]
本稿では,PROBS(Predict Results of Beam Search)と呼ぶ完全情報を持つ2プレイヤー決定型ゲームのための新しいアルゴリズムを提案する。
提案手法は,ベースライン対戦相手に対する勝利率の増大を連続的に示すボードゲームの中から,アルゴリズムの性能を評価する。
この研究の重要な結果は、ビーム探索サイズがゲームの平均ターン数よりもかなり小さい場合でも、PROBSアルゴリズムが効果的に動作することである。
論文 参考訳(メタデータ) (2024-04-23T20:10:27Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - CrossBeam: Learning to Search in Bottom-Up Program Synthesis [51.37514793318815]
ボトムアップ合成のためのハンズオン検索ポリシーを学習するためのニューラルネットワークのトレーニングを提案する。
私たちのアプローチは、CrossBeamと呼ばれ、ニューラルモデルを使用して、以前に探索されたプログラムを新しいプログラムに組み合わせる方法を選択します。
我々はCrossBeamが効率的に検索することを学び、最先端技術と比較してプログラム空間のより小さな部分を探索する。
論文 参考訳(メタデータ) (2022-03-20T04:41:05Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - Exploring Complicated Search Spaces with Interleaving-Free Sampling [127.07551427957362]
本稿では,長距離接続を伴う複雑な検索空間上に探索アルゴリズムを構築する。
我々はtextbfIF-NAS という単純なアルゴリズムを提案し、異なるサブネットワークを構築するために周期的なサンプリング戦略を実行する。
提案した探索空間において、IF-NASはランダムサンプリングと従来の重み付け検索のアルゴリズムを有意差で上回っている。
論文 参考訳(メタデータ) (2021-12-05T06:42:48Z) - Temporal Induced Self-Play for Stochastic Bayesian Games [32.88124137877018]
我々は,任意の意思決定点から適切なパフォーマンスの戦略を見つけるために,TISP(Temporal-induced Self-Play)を提案する。
TISPは、信念空間表現、後方誘導、ポリシー学習、および非パラメトリック近似を使用する。
TISPに基づくアルゴリズムは、有限地平線を持つゼロサム片面ゲームにおいて、近似されたパーフェクトベイズ平衡を見つけることができることを証明している。
論文 参考訳(メタデータ) (2021-08-21T05:36:42Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Using Tabu Search Algorithm for Map Generation in the Terra Mystica
Tabletop Game [60.71662712899962]
Tabu Search (TS)メタヒューリスティックは、アルゴリズムが局所最適点から逃れることによって、単純な局所探索アルゴリズムを改善する。
本稿では,TSの性能について検討し,タブリストのサイズと周辺地域のサイズが手続き的コンテンツ生成に与える影響について考察する。
論文 参考訳(メタデータ) (2020-06-04T09:15:46Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。