論文の概要: Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.09982v2
- Date: Tue, 22 Feb 2022 15:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 12:46:00.127453
- Title: Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning
- Title(参考訳): 問題に触るな - 視覚的強化学習のためのタスクアウェアlipschitzデータ拡張
- Authors: Zhecheng Yuan, Guozheng Ma, Yao Mu, Bo Xia, Bo Yuan, Xueqian Wang,
Ping Luo, Huazhe Xu
- Abstract要約: 視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
- 参考スコア(独自算出の注目度): 27.205521177841568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key challenges in visual Reinforcement Learning (RL) is to learn
policies that can generalize to unseen environments. Recently, data
augmentation techniques aiming at enhancing data diversity have demonstrated
proven performance in improving the generalization ability of learned policies.
However, due to the sensitivity of RL training, naively applying data
augmentation, which transforms each pixel in a task-agnostic manner, may suffer
from instability and damage the sample efficiency, thus further exacerbating
the generalization performance. At the heart of this phenomenon is the diverged
action distribution and high-variance value estimation in the face of augmented
images. To alleviate this issue, we propose Task-aware Lipschitz Data
Augmentation (TLDA) for visual RL, which explicitly identifies the
task-correlated pixels with large Lipschitz constants, and only augments the
task-irrelevant pixels. To verify the effectiveness of TLDA, we conduct
extensive experiments on DeepMind Control suite, CARLA and DeepMind
Manipulation tasks, showing that TLDA improves both sample efficiency in
training time and generalization in test time. It outperforms previous
state-of-the-art methods across the 3 different visual control benchmarks.
- Abstract(参考訳): 視覚強化学習(rl)における重要な課題の1つは、見えない環境に一般化できるポリシーを学ぶことである。
近年,データ多様性向上を目的としたデータ拡張技術は,学習方針の一般化能力の向上に有効であることが証明されている。
しかし、RLトレーニングの感度が高いため、各ピクセルをタスクに依存しない方法で変換するデータ拡張は、不安定性に悩まされサンプル効率が損なわれ、さらに一般化性能が向上する可能性がある。
この現象の核心は、強調画像の面における発散行動分布と高分散値推定である。
この問題を軽減するため,我々はタスク関連画素をリプシッツ定数で明示的に識別し,タスク関連画素のみを強調するvisual rl用タスク対応リプシッツデータ拡張 (tlda) を提案する。
TLDAの有効性を検証するため、我々はDeepMind Control Suite、CARLA、DeepMind Manipulationタスクにおいて広範囲な実験を行い、TLDAはトレーニング時間におけるサンプル効率とテスト時間における一般化の両方を改善することを示した。
3つの異なるビジュアルコントロールベンチマークで、以前の最先端のメソッドよりも優れています。
関連論文リスト
- A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Multi-Augmentation for Efficient Visual Representation Learning for
Self-supervised Pre-training [1.3733988835863333]
本稿では、パイプライン全体を構築するための様々な拡張ポリシーを網羅的に検索する、自己改善学習のためのマルチ強化(MA-SSRL)を提案する。
MA-SSRLは不変の特徴表現をうまく学習し、自己教師付き事前学習のための効率的で効果的で適応可能なデータ拡張パイプラインを提供する。
論文 参考訳(メタデータ) (2022-05-24T04:18:39Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - MetaAugment: Sample-Aware Data Augmentation Policy Learning [20.988767360529362]
我々は、サンプル再重み付け問題として定式化することで、サンプル認識データ拡張ポリシーを効率的に学習する。
拡張ポリシーネットワークは、変換と対応する拡張画像とを入力とし、重みを出力してタスクネットワークで計算された拡張画像損失を調整する。
トレーニング段階では、タスクネットワークは強化訓練画像の重み付け損失を最小限に抑え、ポリシーネットワークはメタラーニングによる検証セット上のタスクネットワークの損失を最小限にする。
論文 参考訳(メタデータ) (2020-12-22T15:19:27Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。