論文の概要: Stabilized Nested Rollout Policy Adaptation
- arxiv url: http://arxiv.org/abs/2101.03563v1
- Date: Sun, 10 Jan 2021 15:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 11:55:08.626047
- Title: Stabilized Nested Rollout Policy Adaptation
- Title(参考訳): 安定型Nested Rollout Policy Adaptation
- Authors: Tristan Cazenave and Jean-Baptiste Sevestre and Matthieu Toulemont
- Abstract要約: Nested Rollout Policy Adaptation(NRPA)は、モンテカルロのシングルプレイヤーゲームのための検索アルゴリズムです。
アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。
- 参考スコア(独自算出の注目度): 7.715389335184684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nested Rollout Policy Adaptation (NRPA) is a Monte Carlo search algorithm for
single player games. In this paper we propose to modify NRPA in order to
improve the stability of the algorithm. Experiments show it improves the
algorithm for different application domains: SameGame, Traveling Salesman with
Time Windows and Expression Discovery.
- Abstract(参考訳): nested rollout policy adaptation (nrpa) は、モンテカルロの単一プレイヤーゲームのための検索アルゴリズムである。
本稿では,アルゴリズムの安定性を向上させるため,NRPAの修正を提案する。
実験によると、samegame、travel salesman with time windows、expression discoveryなど、さまざまなアプリケーションドメインのアルゴリズムが改善されている。
関連論文リスト
- Generalized Nested Rollout Policy Adaptation with Limited Repetitions [4.561007128508218]
Generalized Nested Rollout Policy Adaptation (GNRPA) はモンテカルロの探索アルゴリズムである。
我々は,選択の順序が同じであるような決定論的政策を回避することで,GNRPAの改善を提案する。
論文 参考訳(メタデータ) (2024-01-18T23:19:47Z) - A New Policy Iteration Algorithm For Reinforcement Learning in Zero-Sum
Markov Games [10.805520579293747]
ゲームに対するナイーブなポリシー反復の単純な変種は指数関数的に高速に収束することを示す。
また、線形マルコフゲームの関数近似設定において、ルックアヘッドポリシーを効率的に実装できることを示す。
論文 参考訳(メタデータ) (2023-03-17T01:20:22Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Planning and Learning with Adaptive Lookahead [74.39132848733847]
ポリシーイテレーション(PI)アルゴリズムは、欲求の一段階の改善と政策評価を交互に行う。
近年の文献では、複数段階のルックアヘッドポリシーの改善が、イテレーション毎の複雑さの増加を犠牲にして、よりコンバージェンス率の向上につながることが示されている。
本研究では,多段階の地平線を状態と推定値の関数として動的に適応する手法を初めて提案する。
論文 参考訳(メタデータ) (2022-01-28T20:26:55Z) - Generalized Nested Rollout Policy Adaptation with Dynamic Bias for
Vehicle Routing [7.715389335184684]
GNRPAはNRPAよりも優れた性能を示している。
一部のケースでは、VRP専用のGoogle OR Toolモジュールよりもパフォーマンスがよい。
論文 参考訳(メタデータ) (2021-11-12T20:30:12Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - Monte-Carlo Graph Search for AlphaZero [15.567057178736402]
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-12-20T22:51:38Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Generalized Nested Rollout Policy Adaptation [4.38602607138044]
Nested Rollout Policy Adaptation (NRPA) はモンテカルロのシングルプレイヤーゲーム検索アルゴリズムである。
本稿では、NRPAを温度とバイアスで一般化し、理論的にアルゴリズムを分析することを提案する。
論文 参考訳(メタデータ) (2020-03-22T23:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。