論文の概要: Bootstrap State Representation using Style Transfer for Better
Generalization in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.07749v1
- Date: Fri, 15 Jul 2022 20:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 07:13:02.236475
- Title: Bootstrap State Representation using Style Transfer for Better
Generalization in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における一般化のためのスタイル転送を用いたブートストラップ状態表現
- Authors: Md Masudur Rahman and Yexiang Xue
- Abstract要約: シンガー(Thinker)は、教師なしの方法で観察された特徴の逆効果を除去するブートストラップ法である。
Thinkerは多くのDeep Reinforcement Learning設定に幅広い適用性がある。
- 参考スコア(独自算出の注目度): 16.999444076456268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) agents often overfit the training
environment, leading to poor generalization performance. In this paper, we
propose Thinker, a bootstrapping method to remove adversarial effects of
confounding features from the observation in an unsupervised way, and thus, it
improves RL agents' generalization. Thinker first clusters experience
trajectories into several clusters. These trajectories are then bootstrapped by
applying a style transfer generator, which translates the trajectories from one
cluster's style to another while maintaining the content of the observations.
The bootstrapped trajectories are then used for policy learning. Thinker has
wide applicability among many RL settings. Experimental results reveal that
Thinker leads to better generalization capability in the Procgen benchmark
environments compared to base algorithms and several data augmentation
techniques.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)エージェントは、しばしばトレーニング環境に適合し、一般化性能が低下する。
本稿では,教師なしの方法で観測した特徴の逆効果を除去するブートストラップ手法であるThinkerを提案し,RLエージェントの一般化を改善する。
thinker firstクラスタは、複数のクラスタにトラジェクタを経験する。
これらのトラジェクトリは、あるクラスタのスタイルから別のクラスタへのトラジェクトリを変換するスタイル転送ジェネレータを適用して、観察内容を維持しながらブートストラップされる。
ブートストラップされた軌道はポリシー学習に使用される。
Thinkerは多くのRL設定に幅広い適用性がある。
実験結果から,Thinkerはベースアルゴリズムやデータ拡張技術と比較して,Procgenベンチマーク環境での一般化能力の向上につながることがわかった。
関連論文リスト
- RL-ViGen: A Reinforcement Learning Benchmark for Visual Generalization [23.417092819516185]
視覚一般化のための強化学習ベンチマークRL-ViGenを紹介する。
RL-ViGenは多種多様なタスクと幅広い一般化型を含み、より信頼性の高い結論の導出を容易にする。
我々の願望は、RL-ViGenが将来の普遍的な視覚一般化RLエージェントの創出の触媒となることである。
論文 参考訳(メタデータ) (2023-07-15T05:45:37Z) - Supplementing Gradient-Based Reinforcement Learning with Simple
Evolutionary Ideas [4.873362301533824]
我々は、強化学習(RL)における大規模だが指向的な学習ステップを導入するための、単純でサンプル効率のよいアルゴリズムを提案する。
この手法では、共通経験バッファを持つRLエージェントの集団を用いて、ポリシー空間を効率的に探索するために、エージェントのクロスオーバーと突然変異を行う。
論文 参考訳(メタデータ) (2023-05-10T09:46:53Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文 参考訳(メタデータ) (2021-11-29T15:42:54Z) - SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies [87.78260740602674]
総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
論文 参考訳(メタデータ) (2021-06-17T17:28:18Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Automatic Data Augmentation for Generalization in Deep Reinforcement
Learning [39.477038093585726]
深層強化学習(RL)エージェントは、しばしば目に見えないシナリオへの一般化に失敗する。
近年,RL剤の試料効率と一般化が向上することが示されている。
エージェントはエージェントに影響を与えない環境の変化に対してより堅牢なポリシーや表現を学ぶ。
論文 参考訳(メタデータ) (2020-06-23T09:50:22Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。