論文の概要: Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation
- arxiv url: http://arxiv.org/abs/2107.00644v1
- Date: Thu, 1 Jul 2021 17:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 15:35:09.276386
- Title: Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation
- Title(参考訳): データ拡張によるConvNetとVision Transformerによる深層Q-Learningの安定化
- Authors: Nicklas Hansen, Hao Su, Xiaolong Wang
- Abstract要約: オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 25.493902939111265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While agents trained by Reinforcement Learning (RL) can solve increasingly
challenging tasks directly from visual observations, generalizing learned
skills to novel environments remains very challenging. Extensive use of data
augmentation is a promising technique for improving generalization in RL, but
it is often found to decrease sample efficiency and can even lead to
divergence. In this paper, we investigate causes of instability when using data
augmentation in common off-policy RL algorithms. We identify two problems, both
rooted in high-variance Q-targets. Based on our findings, we propose a simple
yet effective technique for stabilizing this class of algorithms under
augmentation. We perform extensive empirical evaluation of image-based RL using
both ConvNets and Vision Transformers (ViT) on a family of benchmarks based on
DeepMind Control Suite, as well as in robotic manipulation tasks. Our method
greatly improves stability and sample efficiency of ConvNets under
augmentation, and achieves generalization results competitive with
state-of-the-art methods for image-based RL. We further show that our method
scales to RL with ViT-based architectures, and that data augmentation may be
especially important in this setting.
- Abstract(参考訳): 強化学習(rl)によって訓練されたエージェントは、視覚観察から直接、ますます困難なタスクを解決することができるが、学習スキルを新しい環境に一般化することは、非常に難しい。
データ拡張の大規模利用は、RLの一般化を改善するための有望な手法であるが、しばしばサンプル効率を低下させ、またばらつきにつながる可能性がある。
本稿では,共通のオフポリシーrlアルゴリズムにおけるデータ拡張を用いる場合の不安定性の原因について検討する。
高分散qターゲットに根ざした2つの問題を特定する。
そこで本研究では,このアルゴリズムを拡張下で安定化するための,単純かつ効果的な手法を提案する。
我々は,deepmind 制御スイートに基づくベンチマーク群とロボット操作タスクを用いて,convnets と vision transformers (vit) を用いた画像ベースrlの広範な実験評価を行う。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
さらに本手法は,ViTベースのアーキテクチャでRLにスケールし,データ拡張が特に重要であることを示す。
関連論文リスト
- Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-09T21:14:09Z) - A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning [27.205521177841568]
視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-02-21T04:22:07Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。