論文の概要: Chrome Dino Run using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.06799v1
- Date: Sat, 15 Aug 2020 22:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:35:01.787406
- Title: Chrome Dino Run using Reinforcement Learning
- Title(参考訳): 強化学習を用いたChrome Dino Run
- Authors: Divyanshu Marwah, Sneha Srivastava, Anusha Gupta, Shruti Verma
- Abstract要約: 我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning is one of the most advanced set of algorithms known to
mankind which can compete in games and perform at par or even better than
humans. In this paper we study most popular model free reinforcement learning
algorithms along with convolutional neural network to train the agent for
playing the game of Chrome Dino Run. We have used two of the popular temporal
difference approaches namely Deep Q-Learning, and Expected SARSA and also
implemented Double DQN model to train the agent and finally compare the scores
with respect to the episodes and convergence of algorithms with respect to
timesteps.
- Abstract(参考訳): 強化学習(Reinforcement Learning)は、人類がゲームで競い合うことができ、人間よりも同等かそれ以上に優れたアルゴリズムの1つである。
本稿では,最も人気のあるモデル自由強化学習アルゴリズムと畳み込みニューラルネットワークを用いて,chrome dino runのゲームをプレイするエージェントを訓練する。
我々は、Deep Q-Learning(深層Q-Learning)と期待されているSARSA(SARSA)という2つの時相差アプローチを用いてエージェントを訓練し、最後に、時間ステップに関するアルゴリズムのエピソードと収束に関するスコアを比較した。
関連論文リスト
- RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement
Learning for Mario [0.0]
スーパーマリオブラザーズのライブラリとPythonの重みを使ってReptileアルゴリズムを実装し、ニューラルネットワークモデルを作成する。
複数のタスクとエピソードを使用してモデルをトレーニングし、現在のニューラルネットワークモデルを使用してアクションを選択し、環境下でアクションを取り、Reptileアルゴリズムを使用してモデルを更新する。
我々の結果は、Reptileアルゴリズムが、他の2つのアルゴリズムと同等かそれ以上の性能を持つ、ビデオゲームAIにおける数ショット学習に有望なアプローチを提供することを示した。
論文 参考訳(メタデータ) (2023-05-16T17:54:14Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Scalable Deep Reinforcement Learning Algorithms for Mean Field Games [60.550128966505625]
平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。
近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。
MFGを解くための既存のアルゴリズムは戦略や$q$-valuesのような近似量の混合を必要とする。
本稿では,この欠点に対処する2つの手法を提案する。まず,歴史データの蒸留からニューラルネットワークへの混合戦略を学習し,Factitious Playアルゴリズムに適用する。
2つ目はオンライン混合方式である。
論文 参考訳(メタデータ) (2022-03-22T18:10:32Z) - Improving the Diversity of Bootstrapped DQN by Replacing Priors With Noise [8.938418994111716]
本稿は,従来のノイズに置き換える可能性を探るとともに,ガウス分布からノイズをサンプリングして,このアルゴリズムにさらなる多様性を導入する可能性について考察する。
我々は,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上することを発見した。
論文 参考訳(メタデータ) (2022-03-02T10:28:14Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - An Empirical Analysis of Recurrent Learning Algorithms In Neural Lossy
Image Compression Systems [73.48927855855219]
近年のディープラーニングの進歩により、JPEGとJPEG 2000を標準のKodakベンチマークで上回る画像圧縮アルゴリズムが実現している。
本稿では,最近の最先端ハイブリッドニューラル圧縮アルゴリズムの大規模比較を行う。
論文 参考訳(メタデータ) (2022-01-27T19:47:51Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Language Inference with Multi-head Automata through Reinforcement
Learning [0.0]
6つの異なる言語が強化学習問題として定式化されている。
エージェントは単純なマルチヘッドオートマトンとしてモデル化される。
遺伝的アルゴリズムは一般にQ学習アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-10-20T09:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。