論文の概要: Width-based Lookaheads with Learnt Base Policies and Heuristics Over the
Atari-2600 Benchmark
- arxiv url: http://arxiv.org/abs/2106.12151v1
- Date: Wed, 23 Jun 2021 04:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 23:12:33.945615
- Title: Width-based Lookaheads with Learnt Base Policies and Heuristics Over the
Atari-2600 Benchmark
- Title(参考訳): Atari-2600ベンチマークによる学習ベースポリシとヒューリスティックスを用いた幅ベースルックアヘッド
- Authors: Stefan O'Toole, Nir Lipovetzky, Miquel Ramirez, Adrian Pearce
- Abstract要約: RIW$_C$+CPV は $pi$-IW, $pi$-IW(1)+ および $pi$-HIW(n, 1) より優れていることを示す。
また,Atari-2600のゲーム群を,その定義特性に応じて分類する。
- 参考スコア(独自算出の注目度): 4.559353193715442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose new width-based planning and learning algorithms applied over the
Atari-2600 benchmark. The algorithms presented are inspired from a careful
analysis of the design decisions made by previous width-based planners. We
benchmark our new algorithms over the Atari-2600 games and show that our best
performing algorithm, RIW$_C$+CPV, outperforms previously introduced
width-based planning and learning algorithms $\pi$-IW(1), $\pi$-IW(1)+ and
$\pi$-HIW(n, 1). Furthermore, we present a taxonomy of the set of Atari-2600
games according to some of their defining characteristics. This analysis of the
games provides further insight into the behaviour and performance of the
width-based algorithms introduced. Namely, for games with large branching
factors, and games with sparse meaningful rewards, RIW$_C$+CPV outperforms
$\pi$-IW, $\pi$-IW(1)+ and $\pi$-HIW(n, 1).
- Abstract(参考訳): atari-2600ベンチマークを用いて,新たな幅ベースの計画学習アルゴリズムを提案する。
提案するアルゴリズムは、以前の幅ベースのプランナーによる設計決定を慎重に分析することから着想を得ている。
我々は,Atari-2600ゲームに対して新たなアルゴリズムをベンチマークし,これまで導入した幅ベース計画学習アルゴリズムであるRIW$_C$+CPV,$\pi$-IW(1),$\pi$-IW(1)+,$\pi$-HIW(n, 1)より優れていることを示す。
さらに, atari-2600ゲームセットの分類について, その特徴について述べる。
このゲームの分析は、導入された幅ベースのアルゴリズムの挙動と性能に関するさらなる洞察を与える。
すなわち、大きな分岐因子を持つゲームや、希薄な有意義な報酬を持つゲームの場合、RIW$_C$+CPVは$\pi$-IW, $\pi$-IW(1)+および$\pi$-HIW(n, 1)より優れている。
関連論文リスト
- Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Recursive Reasoning in Minimax Games: A Level $k$ Gradient Play Method [0.0]
GAN(Generative Adversarial Network)は、訓練が難しいことで知られている。
新たな推論を提案する: Level $k$ Play (Lvv.k GP)
多くの既存アルゴリズムとは対照的に、我々のアルゴリズムは洗練された情報や曲率情報を必要としない。
我々は、30時間以内に無条件画像生成のための10.17のFIDを達成し、一般的な計算資源のGANトレーニングを最先端のパフォーマンスに到達させる。
論文 参考訳(メタデータ) (2022-10-29T03:43:59Z) - Policy Optimization for Markov Games: Unified Framework and Faster
Convergence [81.3266426402464]
このアルゴリズムのステートワイド平均ポリシはゲームの近似ナッシュ平衡(NE)に収束することを示す。
このアルゴリズムをマルチプレイヤー一般のMarkov Gamesに拡張し、CCE(Correlated Equilibria)への$mathcalwidetildeO(T-1/2)$収束率を示す。
論文 参考訳(メタデータ) (2022-06-06T14:23:13Z) - Efficient $\Phi$-Regret Minimization in Extensive-Form Games via Online
Mirror Descent [49.93548413166884]
$Phi$-Hedgeは、正規形式ゲーム(NFG)のための大規模な平衡を学習できる汎用アルゴリズムである。
EFGにおけるNash Equilibria(ゼロサム設定)、Normal-Form Coarse Correlated Equilibria(NFCCE)、Extensive-Form Correlated Equilibria(EFCE)の学習に$Phi$-Hedgeが直接利用できることを示す。
それらの設定において、emph$Phi$-Hedgeアルゴリズムは標準ミラーDescent(OMD)アルゴリズムと等価であることを示す。
論文 参考訳(メタデータ) (2022-05-30T17:58:06Z) - Near-Optimal Learning of Extensive-Form Games with Imperfect Information [54.55092907312749]
本稿では,2プレイヤーゼロサムゲームにおいて,$widetildemathcalO((XA+YB)/varepsilon2)$プレイのエピソードのみを必要とするアルゴリズムの最初の行を,$varepsilon$-approximate Nash平衡を求める。
これにより$widetildemathcalO((X2A+Y2B)/varepsilon2)$が$widetildemathcalO(maxX,
論文 参考訳(メタデータ) (2022-02-03T18:18:28Z) - Hierarchical Width-Based Planning and Learning [8.776765645845012]
幅に基づく探索手法は、幅広いテストベッドで最先端の性能を実証している。
2つの抽象レベルを計画する階層型アルゴリズムを提案する。
学習方針と学習価値関数を組み合わせることで,提案する階層iwが,atariゲームにおける現在のフラットiwベースのプランナーよりも少ない報酬で勝ることを示す。
論文 参考訳(メタデータ) (2021-01-15T15:37:46Z) - Impact of Representation Learning in Linear Bandits [83.17684841392754]
本研究では,表現学習が帯域幅問題の効率性を向上させる方法について検討する。
我々は,$widetildeO(TsqrtkN + sqrtdkNT)$ regretを達成する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-13T16:35:30Z) - A Sharp Analysis of Model-based Reinforcement Learning with Self-Play [49.88233710867315]
マルチエージェントマルコフゲームのためのモデルベースセルフプレイアルゴリズムのシャープな解析を行う。
我々は,2プレイヤーゼロサムマルコフゲームのための最適化ナッシュ値イテレーション(Nash-VI)を設計する。
我々はさらに、ゼロサムマルコフゲームに対する証明可能な効率的なタスク認識アルゴリズムの設計に我々の分析を適用した。
論文 参考訳(メタデータ) (2020-10-04T15:27:39Z) - Convergence of Deep Fictitious Play for Stochastic Differential Games [6.875312133832078]
最近提案された機械学習アルゴリズム、Deep fictitious Playは、大きな$N$非対称微分ゲームにおけるマルコフ的ナッシュ均衡を見つけるための、新しい効率的なツールを提供する。
架空のプレイの概念を取り入れることで、アルゴリズムはゲームを$N$のサブ最適化問題に分解する。
DFPに基づく戦略が$eps$-Nash均衡を形成することを示す。
論文 参考訳(メタデータ) (2020-08-12T18:27:13Z) - Offline Grid-Based Coverage path planning for guards in games [0.0]
本稿では,2次元多角形(穴のある)領域をカバーする新しいアルゴリズムを提案する。
単純なレイアウトから、実際のゲームで使用されるより複雑なマップまで、いくつかのシナリオに関する実験的分析は、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-01-15T18:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。