論文の概要: Simple Noisy Environment Augmentation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.02882v1
- Date: Thu, 4 May 2023 14:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:15:22.546756
- Title: Simple Noisy Environment Augmentation for Reinforcement Learning
- Title(参考訳): 強化学習のための簡易騒音環境強化
- Authors: Raad Khraishi and Ramin Okhrati
- Abstract要約: 本稿では,雑音による強化学習環境の強化を目的とした汎用ラッパーの集合について検討する。
具体的には、状態、報酬、遷移ダイナミクスに関する拡張に集中する。
3つのRLアルゴリズムを用いて,ラッパーが戻り値に与える影響を実験的に検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation is a widely used technique for improving model performance
in machine learning, particularly in computer vision and natural language
processing. Recently, there has been increasing interest in applying
augmentation techniques to reinforcement learning (RL) problems, with a focus
on image-based augmentation. In this paper, we explore a set of generic
wrappers designed to augment RL environments with noise and encourage agent
exploration and improve training data diversity which are applicable to a broad
spectrum of RL algorithms and environments. Specifically, we concentrate on
augmentations concerning states, rewards, and transition dynamics and introduce
two novel augmentation techniques. In addition, we introduce a noise rate
hyperparameter for control over the frequency of noise injection. We present
experimental results on the impact of these wrappers on return using three
popular RL algorithms, Soft Actor-Critic (SAC), Twin Delayed DDPG (TD3), and
Proximal Policy Optimization (PPO), across five MuJoCo environments. To support
the choice of augmentation technique in practice, we also present analysis that
explores the performance these techniques across environments. Lastly, we
publish the wrappers in our noisyenv repository for use with gym environments.
- Abstract(参考訳): データ拡張は、機械学習、特にコンピュータビジョンや自然言語処理におけるモデルパフォーマンスを改善するために広く使われている技術である。
近年,画像に基づく強化に着目した強化学習(rl)問題への拡張技術の適用への関心が高まっている。
本稿では,rl環境をノイズで強化し,エージェント探索を奨励し,幅広いrlアルゴリズムと環境に適用可能なトレーニングデータの多様性を向上させるための汎用ラッパーのセットについて検討する。
具体的には, 状態, 報酬, 遷移ダイナミクスに関する増補に集中し, 2つの新しい増補技術を導入する。
さらに,ノイズインジェクションの周波数を制御するためのノイズレートハイパーパラメータを提案する。
5つのMuJoCo環境における3つのRLアルゴリズム、Soft Actor-Critic(SAC)、Twin Delayed DDPG(TD3)、PPO(Proximal Policy Optimization)を用いて、これらのラッパーの戻り値への影響について実験を行った。
また,実際に拡張手法の選択を支援するために,これらの手法が環境にまたがる性能を探索する分析を行う。
最後に、ジム環境での使用のために、noisyenvリポジトリにラッパーを公開します。
関連論文リスト
- Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning
Environments [23.337088238344567]
この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を提示する。
また,多くの普及型強化学習環境において,「クリフ」が頻発していることも初めて示された。
論文 参考訳(メタデータ) (2022-05-14T09:08:29Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z) - Experience Augmentation: Boosting and Accelerating Off-Policy
Multi-Agent Reinforcement Learning [6.374722265790792]
本稿では,環境への高速で公平で徹底的な探索に基づく,時間効率と学習の促進を実現するエクスペリエンス向上について述べる。
本手法は,MADDPGと組み合わせた2つの同種環境と1つの異種環境における性能を検証することによって実証する。
論文 参考訳(メタデータ) (2020-05-19T13:57:11Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。