論文の概要: Revisiting Data Augmentation in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.12181v1
- Date: Mon, 19 Feb 2024 14:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 16:10:31.664412
- Title: Revisiting Data Augmentation in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習におけるデータ強化の再検討
- Authors: Jianshu Hu, Yunpeng Jiang and Paul Weng
- Abstract要約: 画像に基づく深部強化学習(DRL)において、様々なデータ拡張技術が提案されている。
既存の手法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
- 参考スコア(独自算出の注目度): 3.660182910533372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various data augmentation techniques have been recently proposed in
image-based deep reinforcement learning (DRL). Although they empirically
demonstrate the effectiveness of data augmentation for improving sample
efficiency or generalization, which technique should be preferred is not always
clear. To tackle this question, we analyze existing methods to better
understand them and to uncover how they are connected. Notably, by expressing
the variance of the Q-targets and that of the empirical actor/critic losses of
these methods, we can analyze the effects of their different components and
compare them. We furthermore formulate an explanation about how these methods
may be affected by choosing different data augmentation transformations in
calculating the target Q-values. This analysis suggests recommendations on how
to exploit data augmentation in a more principled way. In addition, we include
a regularization term called tangent prop, previously proposed in computer
vision, but whose adaptation to DRL is novel to the best of our knowledge. We
evaluate our proposition and validate our analysis in several domains. Compared
to different relevant baselines, we demonstrate that it achieves
state-of-the-art performance in most environments and shows higher sample
efficiency and better generalization ability in some complex environments.
- Abstract(参考訳): 近年,画像に基づく深部強化学習(DRL)において,様々なデータ拡張手法が提案されている。
サンプル効率の向上や一般化にデータ拡張の有効性を実証的に示すが,どの手法が望ましいかは必ずしも明確ではない。
この問題に取り組むため、既存の方法を分析し、それらをよりよく理解し、どのように接続されているかを明らかにする。
特に、これらの手法のQ-ターゲットのばらつきと経験的アクター/批判的損失を表現することにより、それぞれのコンポーネントの効果を分析し、比較することができる。
さらに,対象のq値を計算する際に異なるデータ拡張変換を選択することにより,これらの手法がどのように影響を受けるかを説明する。
この分析は、データ拡張をより原則的に活用する方法を推奨する。
さらに、コンピュータビジョンで提案されていたタンジェント・プロップと呼ばれる正規化用語も含んでいるが、DRLへの適応は私たちの知識の最も新しいものである。
我々は提案を評価し、いくつかの領域で分析を検証する。
関連したベースラインと比較すると,多くの環境において最先端の性能を実現し,複雑な環境において高いサンプル効率と優れた一般化能力を示す。
関連論文リスト
- See Further for Parameter Efficient Fine-tuning by Standing on the Shoulders of Decomposition [56.87609859444084]
パラメータ効率の細かいチューニング(PEFT)は、パラメータの選択したサブセットを最適化し、残りを固定し、計算とストレージのオーバーヘッドを大幅に削減することに焦点を当てている。
分解の観点からそれらを分離することで、すべてのアプローチを統一する第一歩を踏み出します。
本稿では,PEFT技術の性能向上を目的とした,単純かつ効果的なフレームワークとともに,新しい2つのPEFT手法を提案する。
論文 参考訳(メタデータ) (2024-07-07T15:44:42Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Augmentation Invariant Manifold Learning [0.5827521884806071]
本稿では,拡張不変多様体学習と呼ばれる新しい表現学習手法を提案する。
既存の自己教師付き手法と比較して、新しい手法は多様体の幾何学的構造と拡張データの不変性を同時に活用する。
提案手法におけるデータ拡張の役割を理論的研究により明らかにし, 下流解析において, 拡張データから得られたデータ表現が$k$-nearestの隣人を改善できる理由と方法を明らかにした。
論文 参考訳(メタデータ) (2022-11-01T13:42:44Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z) - Removing Undesirable Feature Contributions Using Out-of-Distribution
Data [20.437871747430826]
敵対的学習と標準学習の両方における一般化を改善するためのデータ拡張手法を提案する。
提案手法は,既存の対人訓練をさらに改善することができる。
論文 参考訳(メタデータ) (2021-01-17T10:26:34Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。