論文の概要: Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning
- arxiv url: http://arxiv.org/abs/2308.00318v1
- Date: Tue, 1 Aug 2023 06:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:11:49.842139
- Title: Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning
- Title(参考訳): pixel to policy: 内外の強化学習のためのdqnエンコーダ
- Authors: Ashrya Agrawal, Priyanshi Shah, Sourabh Prakash
- Abstract要約: 強化学習は様々なタスクや環境に適用できる。
多くの環境は類似した構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning can be applied to various tasks, and environments.
Many of these environments have a similar shared structure, which can be
exploited to improve RL performance on other tasks. Transfer learning can be
used to take advantage of this shared structure, by learning policies that are
transferable across different tasks and environments and can lead to more
efficient learning as well as improved performance on a wide range of tasks.
This work explores as well as compares the performance between RL models being
trained from the scratch and on different approaches of transfer learning.
Additionally, the study explores the performance of a model trained on multiple
game environments, with the goal of developing a universal game-playing agent
as well as transfer learning a pre-trained encoder using DQN, and training it
on the same game or a different game. Our DQN model achieves a mean episode
reward of 46.16 which even beats the human-level performance with merely 20k
episodes which is significantly lower than deepmind's 1M episodes. The achieved
mean rewards of 533.42 and 402.17 on the Assault and Space Invader environments
respectively, represent noteworthy performance on these challenging
environments.
- Abstract(参考訳): 強化学習は様々なタスクや環境に適用できる。
これらの環境の多くは同様の共有構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
トランスファー学習は、さまざまなタスクや環境にまたがって転送可能で、より効率的な学習と幅広いタスクのパフォーマンス向上につながるポリシを学習することで、この共有構造を活用するために使用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
さらに,複数のゲーム環境においてトレーニングされたモデルの性能について検討し,汎用ゲームプレイングエージェントの開発と,dqnを用いた事前学習エンコーダの転送と,同一ゲームまたは別のゲームでのトレーニングを目標とした。
我々のDQNモデルは、Deepmindの100万エピソードよりも大幅に低い20kエピソードで人間レベルのパフォーマンスを上回り、平均46.16の報酬を得る。
Assault と Space Invader の環境における平均報酬は 533.42 と 402.17 であり、これらの困難な環境における注目すべき性能を示している。
関連論文リスト
- Probing Transfer in Deep Reinforcement Learning without Task Engineering [26.637254541454773]
深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。
ゲームデザイナーは、Space Invaders、Breakout、Freewayといったゲームの基本バージョンにいくつかの個別の修正を加えてキュリキュラを作成した。
基本ゲームからそれらのバリエーションへのゼロショット転送は可能であるが、性能のばらつきは要因間の相互作用によって大きく説明される。
論文 参考訳(メタデータ) (2022-10-22T13:40:12Z) - Pathfinding in Random Partially Observable Environments with
Vision-Informed Deep Reinforcement Learning [1.332560004325655]
深層強化学習(Deep reinforcement learning)は、Atariのビデオゲームからストックトレーディングまで、さまざまな環境で問題を解決する技術である。
この方法は、深いニューラルネットワークモデルを利用して、目標に達するためのコストと報酬を組み込むことができる報酬関数を最大化することを目的として、所定の環境の観測に基づいて決定を行う。
この研究では、複数のディープQネットワーク(DQN)エージェントが、最小の移動時間で目標ゾーンに達することを目標として、部分的に観測可能な環境で運用するように訓練されている。
論文 参考訳(メタデータ) (2022-09-11T06:32:00Z) - Improving Experience Replay through Modeling of Similar Transitions'
Sets [0.0]
我々は,新しい強化学習手法Compact Experience Replay(COMPER)を提案し,評価する。
本研究の目的は,長期の累積報酬に関するエージェントトレーニングに必要な経験を減らすことである。
約10万フレームのComperの5つのトレーニング試行の結果を報告する。
論文 参考訳(メタデータ) (2021-11-12T19:27:15Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Dynamic Experience Replay [6.062589413216726]
我々は, Ape-X DDPG を基盤として, ロボットによるタイトな組立作業へのアプローチを実証する。
特に、ペグ・イン・ホール(peg-in-hole)とラップ・ジョイント( lap-joint)という2つの異なるタスクで実験を行う。
私たちのアブレーション研究は、ダイナミックエクスペリエンス・リプレイが、これらの困難な環境でのトレーニング時間を大幅に短縮する重要な要素であることを示しています。
論文 参考訳(メタデータ) (2020-03-04T23:46:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。