論文の概要: Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2006.12862v2
- Date: Sat, 20 Feb 2021 12:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:50:11.139197
- Title: Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における一般化のための自動データ拡張
- Authors: Roberta Raileanu, Max Goldstein, Denis Yarats, Ilya Kostrikov, Rob
Fergus
- Abstract要約: 深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
- 参考スコア(独自算出の注目度): 39.477038093585726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) agents often fail to generalize to unseen
scenarios, even when they are trained on many instances of semantically similar
environments. Data augmentation has recently been shown to improve the sample
efficiency and generalization of RL agents. However, different tasks tend to
benefit from different kinds of data augmentation. In this paper, we compare
three approaches for automatically finding an appropriate augmentation. These
are combined with two novel regularization terms for the policy and value
function, required to make the use of data augmentation theoretically sound for
certain actor-critic algorithms. We evaluate our methods on the Procgen
benchmark which consists of 16 procedurally-generated environments and show
that it improves test performance by ~40% relative to standard RL algorithms.
Our agent outperforms other baselines specifically designed to improve
generalization in RL. In addition, we show that our agent learns policies and
representations that are more robust to changes in the environment that do not
affect the agent, such as the background. Our implementation is available at
https://github.com/rraileanu/auto-drac.
- Abstract(参考訳): deep reinforcement learning (rl)エージェントは、意味的に類似した環境の多くのインスタンスでトレーニングされた場合でも、未認識のシナリオに一般化できないことが多い。
近年,RL剤の試料効率と一般化が向上することが示されている。
しかし、異なるタスクは異なる種類のデータ拡張の恩恵を受ける傾向がある。
本稿では,適切な拡張を自動検出するための3つのアプローチを比較する。
これらはポリシーと値関数の2つの新しい正規化用語と組み合わされ、特定のアクター-批判アルゴリズムで理論的にデータ拡張を利用するのに必要である。
提案手法は16のプロシージャ生成環境からなるProcgenベンチマークを用いて評価し,通常のRLアルゴリズムと比較してテスト性能が約40%向上したことを示す。
我々のエージェントは、RLの一般化を改善するために特別に設計された他のベースラインよりも優れている。
さらに,エージェントがエージェントに影響を与えない環境の変化に対してより堅牢なポリシや表現を学習できることも示します。
私たちの実装はhttps://github.com/rraileanu/auto-dracで利用可能です。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation [32.70482982044965]
本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-29T17:21:59Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。