論文の概要: Making Curiosity Explicit in Vision-based RL
- arxiv url: http://arxiv.org/abs/2109.13588v1
- Date: Tue, 28 Sep 2021 09:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 22:44:07.588783
- Title: Making Curiosity Explicit in Vision-based RL
- Title(参考訳): 視覚に基づくRLにおける好奇心の明示
- Authors: Elie Aljalbout and Maximilian Ulmer and Rudolph Triebel
- Abstract要約: 視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望な手法である。
最先端のRLアルゴリズムは、まだサンプル効率の面で苦戦している。
サンプルの多様性を改善するためのアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.829056201510994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based reinforcement learning (RL) is a promising technique to solve
control tasks involving images as the main observation. State-of-the-art RL
algorithms still struggle in terms of sample efficiency, especially when using
image observations. This has led to an increased attention on integrating state
representation learning (SRL) techniques into the RL pipeline. Work in this
field demonstrates a substantial improvement in sample efficiency among other
benefits. However, to take full advantage of this paradigm, the quality of
samples used for training plays a crucial role. More importantly, the diversity
of these samples could affect the sample efficiency of vision-based RL, but
also its generalization capability. In this work, we present an approach to
improve the sample diversity. Our method enhances the exploration capability of
the RL algorithms by taking advantage of the SRL setup. Our experiments show
that the presented approach outperforms the baseline for all tested
environments. These results are most apparent for environments where the
baseline method struggles. Even in simple environments, our method stabilizes
the training, reduces the reward variance and boosts sample efficiency.
- Abstract(参考訳): 視覚ベース強化学習(rl)は,画像を主観測対象とする制御課題を解決するための有望な手法である。
最先端のRLアルゴリズムは、特に画像観察の場合、サンプル効率の観点からはまだ苦戦している。
これにより、状態表現学習(SRL)技術をRLパイプラインに統合することに注目が集まるようになった。
この分野での作業は、サンプル効率の大幅な改善、その他のメリットを示している。
しかしながら、このパラダイムを最大限に活用するには、トレーニングに使用するサンプルの品質が重要な役割を果たす。
さらに重要なことに、これらのサンプルの多様性は、視覚ベースのrlのサンプル効率だけでなく、その一般化能力にも影響を及ぼす可能性がある。
本稿では,サンプルの多様性を改善する手法を提案する。
提案手法は,SRL設定を利用してRLアルゴリズムの探索能力を向上させる。
実験の結果,提案手法がすべてのテスト環境のベースラインを上回ることがわかった。
これらの結果は,ベースライン法が苦しむ環境において最も顕著である。
単純な環境でもトレーニングを安定させ,報酬分散を低減し,サンプル効率を向上させる。
関連論文リスト
- Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - A Comprehensive Survey of Data Augmentation in Visual Reinforcement Learning [53.35317176453194]
データ拡張(DA)は、サンプル効率と一般化可能なポリシーを取得するために視覚的RLで広く使われている技術である。
本稿では、視覚的RLで使用されている既存の拡張技法の原則的な分類法を提案し、拡張データをどのように活用するかを詳細に議論する。
視覚的RLにおけるDAに関する最初の総合的な調査として、この研究は、この新興分野に貴重なガイダンスを提供するものと期待されている。
論文 参考訳(メタデータ) (2022-10-10T11:01:57Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning [12.829056201510994]
状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
論文 参考訳(メタデータ) (2021-10-02T11:15:04Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。