論文の概要: Reinforcement Learning with Augmented Data
- arxiv url: http://arxiv.org/abs/2004.14990v5
- Date: Thu, 5 Nov 2020 06:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:20:45.467663
- Title: Reinforcement Learning with Augmented Data
- Title(参考訳): 強化データによる強化学習
- Authors: Michael Laskin, Kimin Lee, Adam Stooke, Lerrel Pinto, Pieter Abbeel,
and Aravind Srinivas
- Abstract要約: 本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
- 参考スコア(独自算出の注目度): 97.42819506719191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from visual observations is a fundamental yet challenging problem in
Reinforcement Learning (RL). Although algorithmic advances combined with
convolutional neural networks have proved to be a recipe for success, current
methods are still lacking on two fronts: (a) data-efficiency of learning and
(b) generalization to new environments. To this end, we present Reinforcement
Learning with Augmented Data (RAD), a simple plug-and-play module that can
enhance most RL algorithms. We perform the first extensive study of general
data augmentations for RL on both pixel-based and state-based inputs, and
introduce two new data augmentations - random translate and random amplitude
scale. We show that augmentations such as random translate, crop, color jitter,
patch cutout, random convolutions, and amplitude scale can enable simple RL
algorithms to outperform complex state-of-the-art methods across common
benchmarks. RAD sets a new state-of-the-art in terms of data-efficiency and
final performance on the DeepMind Control Suite benchmark for pixel-based
control as well as OpenAI Gym benchmark for state-based control. We further
demonstrate that RAD significantly improves test-time generalization over
existing methods on several OpenAI ProcGen benchmarks. Our RAD module and
training code are available at https://www.github.com/MishaLaskin/rad.
- Abstract(参考訳): 視覚的な観察から学ぶことは、強化学習(RL)の根本的な問題である。
畳み込みニューラルネットワークと組み合わせたアルゴリズムの進歩は成功のレシピであることが証明されているが、現在の手法はまだ2つの面で欠けている。
a)学習と学習のデータ効率
(b)新しい環境への一般化
そこで本研究では,ほとんどのrlアルゴリズムを拡張可能な簡易なプラグアンドプレイモジュールであるarded data(rad)を用いた強化学習を提案する。
画素ベースと状態ベースの両方の入力に対するRLの一般データ拡張に関する最初の広範な研究を行い、ランダム変換とランダム振幅スケールという2つの新しいデータ拡張を導入する。
ランダム翻訳,クロップ,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張によって,単純なrlアルゴリズムが,共通ベンチマークで複雑な最先端手法を上回ることができることを示した。
RADは、ピクセルベースの制御のためのDeepMind Control Suiteベンチマークと、状態ベースの制御のためのOpenAI Gymベンチマークにおいて、データ効率と最終的なパフォーマンスの面で、新たな最先端を設定している。
さらに、いくつかのOpenAI ProcGenベンチマークにおいて、RADは既存のメソッドよりもテスト時の一般化を大幅に改善することを示した。
私たちのRADモジュールとトレーニングコードはhttps://www.github.com/MishaLaskin/rad.orgで公開されています。
関連論文リスト
- Reinforcement Learning with Token-level Feedback for Controllable Text Generation [16.117006822479407]
token-Level rewards for controllable text generationを定式化するTOLEという新しい強化学習アルゴリズムを提案する。
実験結果から,本アルゴリズムは単一属性と複数属性の制御タスクにおいて,優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T08:18:37Z) - M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。