論文の概要: RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement
Learning for Mario
- arxiv url: http://arxiv.org/abs/2305.09655v1
- Date: Tue, 16 May 2023 17:54:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 13:31:49.319948
- Title: RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement
Learning for Mario
- Title(参考訳): RAMario: Reptile Algorithmに対する実験的アプローチ -- マリオのための強化学習
- Authors: Sanyam Jain
- Abstract要約: スーパーマリオブラザーズのライブラリとPythonの重みを使ってReptileアルゴリズムを実装し、ニューラルネットワークモデルを作成する。
複数のタスクとエピソードを使用してモデルをトレーニングし、現在のニューラルネットワークモデルを使用してアクションを選択し、環境下でアクションを取り、Reptileアルゴリズムを使用してモデルを更新する。
我々の結果は、Reptileアルゴリズムが、他の2つのアルゴリズムと同等かそれ以上の性能を持つ、ビデオゲームAIにおける数ショット学習に有望なアプローチを提供することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research paper presents an experimental approach to using the Reptile
algorithm for reinforcement learning to train a neural network to play Super
Mario Bros. We implement the Reptile algorithm using the Super Mario Bros Gym
library and TensorFlow in Python, creating a neural network model with a single
convolutional layer, a flatten layer, and a dense layer. We define the
optimizer and use the Reptile class to create an instance of the Reptile
meta-learning algorithm. We train the model using multiple tasks and episodes,
choosing actions using the current weights of the neural network model, taking
those actions in the environment, and updating the model weights using the
Reptile algorithm. We evaluate the performance of the algorithm by printing the
total reward for each episode. In addition, we compare the performance of the
Reptile algorithm approach to two other popular reinforcement learning
algorithms, Proximal Policy Optimization (PPO) and Deep Q-Network (DQN),
applied to the same Super Mario Bros task. Our results demonstrate that the
Reptile algorithm provides a promising approach to few-shot learning in video
game AI, with comparable or even better performance than the other two
algorithms, particularly in terms of moves vs distance that agent performs for
1M episodes of training. The results shows that best total distance for world
1-2 in the game environment were ~1732 (PPO), ~1840 (DQN) and ~2300 (RAMario).
Full code is available at https://github.com/s4nyam/RAMario.
- Abstract(参考訳): 本研究では,Reptileアルゴリズムを用いて強化学習を行い,ニューラルネットワークを用いてスーパーマリオブラザーズをプレイする実験手法を提案する。
我々はSuper Mario Bros GymライブラリとTensorFlowをPythonで使用してReptileアルゴリズムを実装し、単一の畳み込み層、フラット層、および高密度層を備えたニューラルネットワークモデルを作成する。
我々はオプティマイザを定義し、Reptileクラスを使用してReptileメタ学習アルゴリズムのインスタンスを作成する。
複数のタスクやエピソードを使ってモデルをトレーニングし、ニューラルネットワークモデルの現在の重みを使ってアクションを選択し、環境下でアクションを取り、Reptileアルゴリズムを使ってモデルの重みを更新する。
各エピソードの総報酬を印刷することにより,アルゴリズムの性能を評価する。
さらに,ReptileアルゴリズムとPPO (Proximal Policy Optimization) とDQN (Deep Q-Network) の2つの一般的な強化学習アルゴリズムを比較し,同じスーパーマリオブラザースタスクに適用した。
その結果,このアルゴリズムは,他の2つのアルゴリズム,特にエージェントが1mのトレーニングで実行する動きと距離の点で同等あるいはそれ以上のパフォーマンスを持つ,ゲームaiにおける少数ショット学習に有望なアプローチを提供することがわかった。
その結果,ゲーム環境におけるワールド1-2の最大距離は1732 (PPO), ~1840 (DQN), ~2300 (RAMario) であった。
完全なコードはhttps://github.com/s4nyam/RAMarioで入手できる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Tricks and Plugins to GBM on Images and Sequences [18.939336393665553]
本稿では,動的特徴選択とBoostCNNの利点を組み合わせるために,Deep Convolutional Neural Networks(BoostCNN)を高速化するアルゴリズムを提案する。
また,最小2乗の目的関数に基づいて,重み付けをディープラーニングアーキテクチャに組み込むアルゴリズムも提案する。
実験により,提案手法はいくつかのきめ細かい分類タスクのベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-03-01T21:59:00Z) - Shedding some light on Light Up with Artificial Intelligence [0.3867363075280543]
カカリパズルとしても知られるライトアップパズルは、現代の人工知能(AI)手法で解決されたことはない。
このプロジェクトは、Light-upパズルを素早く、より計算的に効率的に解くために、新しいAI技術を適用する取り組みである。
論文 参考訳(メタデータ) (2021-07-22T03:03:57Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。
我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文 参考訳(メタデータ) (2020-08-15T22:18:20Z) - TAdam: A Robust Stochastic Gradient Optimizer [6.973803123972298]
機械学習アルゴリズムは、特にロボット分野において、いくつかのノイズを含むかもしれない観察からパターンを見つけることを目的としている。
このようなノイズにうまく対処するためには、外乱を検知し、必要に応じて破棄できると期待している。
そこで本研究では,アルゴリズムに頑健性を直接組み込んだ勾配最適化手法を提案し,その中核となる概念として頑健な学生分布を用いた。
論文 参考訳(メタデータ) (2020-02-29T04:32:36Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。