論文の概要: Generalization in Reinforcement Learning by Soft Data Augmentation
- arxiv url: http://arxiv.org/abs/2011.13389v2
- Date: Fri, 9 Apr 2021 02:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 12:07:07.934841
- Title: Generalization in Reinforcement Learning by Soft Data Augmentation
- Title(参考訳): ソフトデータ強化による強化学習の一般化
- Authors: Nicklas Hansen, Xiaolong Wang
- Abstract要約: SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
- 参考スコア(独自算出の注目度): 11.752595047069505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extensive efforts have been made to improve the generalization ability of
Reinforcement Learning (RL) methods via domain randomization and data
augmentation. However, as more factors of variation are introduced during
training, optimization becomes increasingly challenging, and empirically may
result in lower sample efficiency and unstable training. Instead of learning
policies directly from augmented data, we propose SOft Data Augmentation
(SODA), a method that decouples augmentation from policy learning.
Specifically, SODA imposes a soft constraint on the encoder that aims to
maximize the mutual information between latent representations of augmented and
non-augmented data, while the RL optimization process uses strictly
non-augmented data. Empirical evaluations are performed on diverse tasks from
DeepMind Control suite as well as a robotic manipulation task, and we find SODA
to significantly advance sample efficiency, generalization, and stability in
training over state-of-the-art vision-based RL methods.
- Abstract(参考訳): ドメインのランダム化とデータ拡張による強化学習(RL)手法の一般化能力の向上に大きく取り組んできた。
しかしながら、トレーニング中により多くの変動要因が導入されるにつれて、最適化はますます難しくなり、経験上はサンプル効率が低下し、不安定なトレーニングになる可能性がある。
拡張データから直接ポリシを学習するのではなく,ポリシー学習から拡張を分離する手法であるsoft data augmentation(soda)を提案する。
特に、SODAはエンコーダにソフト制約を課し、拡張されたデータと非拡張されたデータの潜在表現間の相互情報を最大化することを目的としている。
我々は,DeepMind Controlスイートとロボット操作タスクの多様なタスクに対して実験的な評価を行い,最先端のビジョンベースRL手法によるトレーニングにおいて,サンプル効率,一般化,安定性を著しく向上させるSODAを見出した。
関連論文リスト
- Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - AdaAugment: A Tuning-Free and Adaptive Approach to Enhance Data Augmentation [12.697608744311122]
AdaAugmentは、チューニング不要なAdaptive Augmentationメソッドである。
対象ネットワークからのリアルタイムフィードバックに基づいて、個別のトレーニングサンプルの増大度を動的に調整する。
優れた効率を保ちながら、他の最先端のDAメソッドの効率を一貫して上回ります。
論文 参考訳(メタデータ) (2024-05-19T06:54:03Z) - Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates [3.5253513747455303]
我々は、観察された学習改善に寄与するデータ拡張(DA)の一般的な側面を同定する。
本研究では,動的不変データ拡張機能を持つスパース逆タスクに着目した。
論文 参考訳(メタデータ) (2023-10-26T21:28:50Z) - Incorporating Supervised Domain Generalization into Data Augmentation [4.14360329494344]
本稿では,データ拡張の堅牢性と訓練効率を向上させるために,コントラッシブ・セマンティック・アライメント(CSA)ロス法を提案する。
CIFAR-100とCUBデータセットの実験により、提案手法は典型的なデータ拡張の堅牢性とトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2023-10-02T09:20:12Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation [32.70482982044965]
本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2021-06-29T17:21:59Z) - Data Augmentation for Opcode Sequence Based Malware Detection [2.335152769484957]
固定変換を用いた基本手法からデータ拡張の異なる手法について検討し、データに適応する手法に移行する。
ネットワーク内のOpcode埋め込み層とそれに対応するOpcode埋め込み行列を用いた新しいデータ拡張手法を提案する。
我々の知る限りでは、オプコードシーケンスに基づくマルウェア分類に適用される様々な拡張手法を体系的に研究する最初の論文である。
論文 参考訳(メタデータ) (2021-06-22T14:36:35Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。