論文の概要: Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation
- arxiv url: http://arxiv.org/abs/2106.15587v1
- Date: Tue, 29 Jun 2021 17:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:22:39.108970
- Title: Generalization of Reinforcement Learning with Policy-Aware Adversarial
Data Augmentation
- Title(参考訳): 政策対応型adversarialデータ拡張による強化学習の一般化
- Authors: Hanping Zhang, Yuhong Guo
- Abstract要約: 本稿では,自動生成軌道データによる標準方針学習手法の強化を目的とした,新たなポリシー対応逆データ拡張手法を提案する。
提案手法の一般化性能を検討するために, 多数のRLタスクについて実験を行った。
その結果,本手法は訓練の多様性に限界があり,最先端の一般化テスト性能を実現することができることがわかった。
- 参考スコア(独自算出の注目度): 32.70482982044965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization gap in reinforcement learning (RL) has been a significant
obstacle that prevents the RL agent from learning general skills and adapting
to varying environments. Increasing the generalization capacity of the RL
systems can significantly improve their performance on real-world working
environments. In this work, we propose a novel policy-aware adversarial data
augmentation method to augment the standard policy learning method with
automatically generated trajectory data. Different from the commonly used
observation transformation based data augmentations, our proposed method
adversarially generates new trajectory data based on the policy gradient
objective and aims to more effectively increase the RL agent's generalization
ability with the policy-aware data augmentation. Moreover, we further deploy a
mixup step to integrate the original and generated data to enhance the
generalization capacity while mitigating the over-deviation of the adversarial
data. We conduct experiments on a number of RL tasks to investigate the
generalization performance of the proposed method by comparing it with the
standard baselines and the state-of-the-art mixreg approach. The results show
our method can generalize well with limited training diversity, and achieve the
state-of-the-art generalization test performance.
- Abstract(参考訳): 強化学習(RL)における一般化ギャップは、RLエージェントが一般的なスキルを習得し、様々な環境に適応することを妨げる重要な障害である。
RLシステムの一般化能力を高めることで、実環境における性能を大幅に向上させることができる。
本研究では,自動生成トラジェクトリデータを用いた標準方針学習手法を改良するための,新しい方針対応逆データ拡張手法を提案する。
一般的な観測変換に基づくデータ拡張とは違って,提案手法は方針勾配目標に基づく新たな軌道データを生成し,ポリシー認識データ拡張により,rlエージェントの一般化能力をより効果的に向上することを目的としている。
さらに,先行データと生成データを統合するためのミックスアップステップを展開し,敵データの過大化を緩和しつつ,一般化能力を高める。
提案手法を標準ベースラインと比較し,最先端のmixregアプローチを用いて一般化性能を検討するため,多数のrlタスクについて実験を行った。
以上の結果から,本手法はトレーニングの多様性が限定され,最先端の一般化テスト性能が得られることを示した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - CROP: Towards Distributional-Shift Robust Reinforcement Learning using
Compact Reshaped Observation Processing [8.569762036154799]
一般化のための最近のアプローチは、トレーニングデータの多様性を高めるためにデータ拡張技術を適用している。
重要な情報のみを含む適切な観察を行うことは、それ自体が困難な作業であることが示されている。
政策最適化に使用する状態情報を削減するために,CROP(Compact Reshaped Observation Processing)を提案する。
論文 参考訳(メタデータ) (2023-04-26T15:19:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Rethinking Domain Generalization Baselines [21.841393368012977]
ディープラーニングモデルは、トレーニングされたシナリオとは異なるシナリオでデプロイすると脆くなります。
データ拡張戦略は、データ変動性を高めるための有用なツールであり、ドメイン間のモデル堅牢性をサポートする。
この課題はドメイン一般化研究の新しいシナリオを開放し、導入したデータ可変性を適切に活用できる新しい手法の必要性を強調した。
論文 参考訳(メタデータ) (2021-01-22T11:35:58Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Deep Active Learning with Augmentation-based Consistency Estimation [23.492616938184092]
本稿では,データ拡張に基づく手法をアクティブな学習シナリオに適用することにより,一般化能力を向上させる手法を提案する。
データの増大に基づく正規化損失については,カットアウト(co)とカットミックス(cm)の戦略を定量的指標として再定義した。
強化型正規化器は,能動学習の訓練段階における性能向上につながる可能性が示唆された。
論文 参考訳(メタデータ) (2020-11-05T05:22:58Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。