論文の概要: Learning Synthetic Environments and Reward Networks for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.02790v1
- Date: Sun, 6 Feb 2022 14:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 08:48:13.071578
- Title: Learning Synthetic Environments and Reward Networks for Reinforcement
Learning
- Title(参考訳): 強化学習のための合成環境学習と報酬ネットワーク
- Authors: Fabio Ferreira and Thomas Nierhoff and Andreas Saelinger and Frank
Hutter
- Abstract要約: 本稿では,Reinforcement Learning (RL)エージェントを訓練するためのプロキシ環境モデルとして,Synthetic Environments(SE)とReward Networks(RN)を紹介する。
エージェントがSEのみに訓練された後、対応する実環境を解くことができることを示す。
- 参考スコア(独自算出の注目度): 34.01695320809796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Synthetic Environments (SEs) and Reward Networks (RNs),
represented by neural networks, as proxy environment models for training
Reinforcement Learning (RL) agents. We show that an agent, after being trained
exclusively on the SE, is able to solve the corresponding real environment.
While an SE acts as a full proxy to a real environment by learning about its
state dynamics and rewards, an RN is a partial proxy that learns to augment or
replace rewards. We use bi-level optimization to evolve SEs and RNs: the inner
loop trains the RL agent, and the outer loop trains the parameters of the SE /
RN via an evolution strategy. We evaluate our proposed new concept on a broad
range of RL algorithms and classic control environments. In a one-to-one
comparison, learning an SE proxy requires more interactions with the real
environment than training agents only on the real environment. However, once
such an SE has been learned, we do not need any interactions with the real
environment to train new agents. Moreover, the learned SE proxies allow us to
train agents with fewer interactions while maintaining the original task
performance. Our empirical results suggest that SEs achieve this result by
learning informed representations that bias the agents towards relevant states.
Moreover, we find that these proxies are robust against hyperparameter
variation and can also transfer to unseen agents.
- Abstract(参考訳): 本稿では,ニューラルネットワークに代表されるSynthetic Environments(SE)とReward Networks(RN)を,Reinforcement Learning(RL)エージェントを訓練するためのプロキシ環境モデルとして紹介する。
エージェントがSEのみに訓練された後、対応する実環境を解くことができることを示す。
SEは状態のダイナミクスと報酬を学ぶことによって、実際の環境に対する完全なプロキシとして機能する一方で、RNは報酬を拡大または置き換えることを学ぶ部分的なプロキシである。
内ループはRLエージェントを、外ループはSE/RNのパラメータを進化戦略を介して訓練する。
提案する新しい概念を,RLアルゴリズムと古典制御環境の幅広い範囲で評価する。
1対1の比較では、seプロキシの学習は、実際の環境のみのトレーニングエージェントよりも実際の環境とのインタラクションを必要とする。
しかし、一度そのようなSEが学習されると、新しいエージェントを訓練する実際の環境との相互作用は不要となる。
さらに、学習したSEプロキシにより、元のタスクパフォーマンスを維持しながら、より少ないインタラクションでエージェントをトレーニングすることができます。
実験の結果,SEはエージェントが関連する状態に偏りを示す情報表現を学習することで,この結果が得られることが示唆された。
さらに,これらのプロキシはハイパーパラメータ変動に対して頑健であり,未検出のエージェントにも移行できることがわかった。
関連論文リスト
- Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems [3.7311680121118345]
強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
論文 参考訳(メタデータ) (2021-12-01T11:23:40Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning Synthetic Environments for Reinforcement Learning with
Evolution Strategies [34.13101380723782]
本研究は強化学習のための学習エージェント非依存合成環境(ses)を探索する。
SEはターゲット環境のプロキシとして機能し、ターゲット環境上で直接トレーニングされた場合よりも効率的にエージェントをトレーニングできる。
本手法は,2つの離散的動作空間タスクに対してsesを学習でき,より堅牢に,最大60%のステップでエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2021-01-24T14:16:13Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。