論文の概要: Generalized Nested Rollout Policy Adaptation
- arxiv url: http://arxiv.org/abs/2003.10024v1
- Date: Sun, 22 Mar 2020 23:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 05:32:10.986418
- Title: Generalized Nested Rollout Policy Adaptation
- Title(参考訳): 一般化ネステッドロールアウトポリシー適応
- Authors: Tristan Cazenave
- Abstract要約: Nested Rollout Policy Adaptation (NRPA) はモンテカルロのシングルプレイヤーゲーム検索アルゴリズムである。
本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。
- 参考スコア(独自算出の注目度): 4.38602607138044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nested Rollout Policy Adaptation (NRPA) is a Monte Carlo search algorithm for
single player games. In this paper we propose to generalize NRPA with a
temperature and a bias and to analyze theoretically the algorithms. The
generalized algorithm is named GNRPA. Experiments show it improves on NRPA for
different application domains: SameGame and the Traveling Salesman Problem with
Time Windows.
- Abstract(参考訳): nested rollout policy adaptation (nrpa) は、モンテカルロの単一プレイヤーゲームのための検索アルゴリズムである。
本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。
一般化されたアルゴリズムは GNRPA と呼ばれる。
実験では、異なるアプリケーションドメインのnrpaの改善が示されている: samegameとtime windowsでのトラベルセールスマン問題。
関連論文リスト
- Generalized Nested Rollout Policy Adaptation with Limited Repetitions [4.561007128508218]
Generalized Nested Rollout Policy Adaptation (GNRPA) はモンテカルロの探索アルゴリズムである。
我々は,選択の順序が同じであるような決定論的政策を回避することで,GNRPAの改善を提案する。
論文 参考訳(メタデータ) (2024-01-18T23:19:47Z) - Algorithms for Weighted Pushdown Automata [118.67634716230025]
重み付きプッシュダウンオートマトン(WPDA)は多くの自然言語処理タスクの中核にある。
WPDA上で直接動作する新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-13T10:21:31Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Generalized Nested Rollout Policy Adaptation with Dynamic Bias for
Vehicle Routing [7.715389335184684]
GNRPAはNRPAよりも優れた性能を示している。
一部のケースでは、VRP専用のGoogle OR Toolモジュールよりもパフォーマンスがよい。
論文 参考訳(メタデータ) (2021-11-12T20:30:12Z) - Waypoint Planning Networks [66.72790309889432]
本稿では,ローカルカーネル(A*のような古典的アルゴリズム)と学習アルゴリズムを用いたグローバルカーネルを用いたLSTMに基づくハイブリッドアルゴリズムを提案する。
我々は、WPNとA*を比較し、動き計画ネットワーク(MPNet)やバリューネットワーク(VIN)を含む関連する作業と比較する。
WPN の探索空間は A* よりもかなり小さいが、ほぼ最適な結果が得られることが示されている。
論文 参考訳(メタデータ) (2021-05-01T18:02:01Z) - Stabilized Nested Rollout Policy Adaptation [7.715389335184684]
Nested Rollout Policy Adaptation(NRPA)は、モンテカルロのシングルプレイヤーゲームのための検索アルゴリズムです。
アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。
論文 参考訳(メタデータ) (2021-01-10T15:05:14Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Monte-Carlo Graph Search for AlphaZero [15.567057178736402]
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-12-20T22:51:38Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。