論文の概要: Efficient Deep Reinforcement Learning with Predictive Processing
Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2211.06236v1
- Date: Fri, 11 Nov 2022 14:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:39:23.326967
- Title: Efficient Deep Reinforcement Learning with Predictive Processing
Proximal Policy Optimization
- Title(参考訳): 予測処理近位政策最適化による高効率深層強化学習
- Authors: Burcu K\"u\c{c}\"uko\u{g}lu, Walraaf Borkent, Bodo Rueckauer, Nasir
Ahmad, Umut G\"u\c{c}l\"u and Marcel van Gerven
- Abstract要約: センサ状態を予測するリカレントニューラルネットワークは,サプライズを最小化するために有効であることを示す。
本稿では,P4O(Predictive Processing Proximal Policy Optimization)エージェントを提案する。
これは、世界モデルを隠れた状態に統合することで、PPOアルゴリズムの繰り返し変種に予測処理を適用する。
- 参考スコア(独自算出の注目度): 3.8570045844185237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in reinforcement learning (RL) often rely on massive compute
resources and remain notoriously sample inefficient. In contrast, the human
brain is able to efficiently learn effective control strategies using limited
resources. This raises the question whether insights from neuroscience can be
used to improve current RL methods. Predictive processing is a popular
theoretical framework which maintains that the human brain is actively seeking
to minimize surprise. We show that recurrent neural networks which predict
their own sensory states can be leveraged to minimise surprise, yielding
substantial gains in cumulative reward. Specifically, we present the Predictive
Processing Proximal Policy Optimization (P4O) agent; an actor-critic
reinforcement learning agent that applies predictive processing to a recurrent
variant of the PPO algorithm by integrating a world model in its hidden state.
P4O significantly outperforms a baseline recurrent variant of the PPO algorithm
on multiple Atari games using a single GPU. It also outperforms other
state-of-the-art agents given the same wall-clock time and exceeds human gamer
performance on multiple games including Seaquest, which is a particularly
challenging environment in the Atari domain. Altogether, our work underscores
how insights from the field of neuroscience may support the development of more
capable and efficient artificial agents.
- Abstract(参考訳): 強化学習(RL)の進歩は、しばしば大量の計算資源に依存し、非効率なサンプルとして悪名高い。
対照的に、人間の脳は限られた資源を使って効果的な制御戦略を効率的に学習することができる。
これにより、現在のRL法を改善するために神経科学からの洞察が使えるかどうかという疑問が提起される。
予測処理は、人間の脳がサプライズを最小化しようと積極的に試みているという一般的な理論フレームワークである。
それぞれの感覚状態を予測するリカレントニューラルネットワークは、サプライズを最小限に抑え、累積報酬の実質的なゲインを得られることを示す。
具体的には,世界モデルを隠れた状態に統合することにより,ppoアルゴリズムの反復的変種に予測処理を適用するアクタ-批判的強化学習エージェントである予測処理近位政策最適化(p4o)エージェントを提案する。
P4Oは1つのGPUを用いて複数のAtariゲーム上でPPOアルゴリズムのベースラインリカレント変動を著しく上回る。
また、同じウォールクロックの時間に与えられる最先端のエージェントを上回り、atariドメインで特に困難な環境であるseaquestを含む複数のゲームで人間のゲーマーのパフォーマンスを上回っている。
私たちの研究は、神経科学の分野からの洞察が、より有能で効率的な人工エージェントの開発にどのように役立つかを強調しています。
関連論文リスト
- SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - Flexible Attention-Based Multi-Policy Fusion for Efficient Deep
Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。
RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。
我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文 参考訳(メタデータ) (2022-10-07T17:56:57Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - An Efficient Application of Neuroevolution for Competitive Multiagent
Learning [0.0]
NEATは、最高のパフォーマンスのニューラルネットワークアーキテクチャを得るために使われる一般的な進化戦略である。
本稿では, NEATアルゴリズムを用いて, 変形したポンポンゲーム環境において, 競争力のあるマルチエージェント学習を実現する。
論文 参考訳(メタデータ) (2021-05-23T10:34:48Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Using Generative Adversarial Nets on Atari Games for Feature Extraction
in Deep Reinforcement Learning [0.76146285961466]
Deep Reinforcement Learning (DRL)は、ロボットナビゲーションやビデオゲームの自動プレイなど、いくつかの研究領域で成功している。
この要件の主な理由は、疎結合で遅延した報酬が、ディープニューラルネットワークの表現学習に効果的な監督を提供していないことである。
本研究では,PPOアルゴリズムをGAN(Generative Adrial Networks)で拡張し,ネットワークを介さずに効率的な表現を学習させることにより,サンプル効率を向上させる。
論文 参考訳(メタデータ) (2020-04-06T15:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。