論文の概要: A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.17416v1
- Date: Mon, 27 May 2024 17:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.356462
- Title: A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning
- Title(参考訳): 視覚強化学習における非有界データ強化の試み
- Authors: Abdulaziz Almuzairee, Nicklas Hansen, Henrik I. Christensen,
- Abstract要約: Q$-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、過度に適合し、不安定を訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
- 参考スコア(独自算出の注目度): 12.889687274108248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: $Q$-learning algorithms are appealing for real-world applications due to their data-efficiency, but they are very prone to overfitting and training instabilities when trained from visual observations. Prior work, namely SVEA, finds that selective application of data augmentation can improve the visual generalization of RL agents without destabilizing training. We revisit its recipe for data augmentation, and find an assumption that limits its effectiveness to augmentations of a photometric nature. Addressing these limitations, we propose a generalized recipe, SADA, that works with wider varieties of augmentations. We benchmark its effectiveness on DMC-GB2 -- our proposed extension of the popular DMControl Generalization Benchmark -- as well as tasks from Meta-World and the Distracting Control Suite, and find that our method, SADA, greatly improves training stability and generalization of RL agents across a diverse set of augmentations. Visualizations, code, and benchmark: see https://aalmuzairee.github.io/SADA/
- Abstract(参考訳): Q$-learningアルゴリズムは、データ効率のために現実世界のアプリケーションにアピールするが、視覚的な観察からトレーニングされた場合、過度に適合し、トレーニングする傾向がある。
以前の研究、すなわちSVEAは、データ拡張の選択的応用は、トレーニングを不安定にすることなく、RLエージェントの視覚的一般化を改善することができることを示した。
我々は、データ拡張のためのレシピを再検討し、その効果を測光特性の増強に制限する仮定を求める。
これらの制限に対処し、より広い種類の拡張を扱う一般化されたレシピであるSADAを提案する。
提案するDMControl Generalization Benchmarkの拡張とMeta-WorldとDistracting Control SuiteのタスクであるDMC-GB2にその効果をベンチマークし、我々のメソッドであるSADAが、様々な拡張セットにわたるRLエージェントのトレーニング安定性と一般化を大幅に改善することを発見した。
可視化、コード、ベンチマーク:https://aalmuzairee.github.io/SADA/
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-09T21:14:09Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning [27.205521177841568]
視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-02-21T04:22:07Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。