論文の概要: Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.00784v1
- Date: Sat, 2 Oct 2021 11:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 13:50:19.643438
- Title: Seeking Visual Discomfort: Curiosity-driven Representations for
Reinforcement Learning
- Title(参考訳): 視覚的不快感:強化学習のための好奇心による表現
- Authors: Elie Aljalbout and Maximilian Ulmer and Rudolph Triebel
- Abstract要約: 状態表現学習におけるサンプルの多様性向上のためのアプローチを提案する。
提案手法は,問題状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを向上する。
- 参考スコア(独自算出の注目度): 12.829056201510994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-based reinforcement learning (RL) is a promising approach to solve
control tasks involving images as the main observation. State-of-the-art RL
algorithms still struggle in terms of sample efficiency, especially when using
image observations. This has led to increased attention on integrating state
representation learning (SRL) techniques into the RL pipeline. Work in this
field demonstrates a substantial improvement in sample efficiency among other
benefits. However, to take full advantage of this paradigm, the quality of
samples used for training plays a crucial role. More importantly, the diversity
of these samples could affect the sample efficiency of vision-based RL, but
also its generalization capability. In this work, we present an approach to
improve sample diversity for state representation learning. Our method enhances
the exploration capability of RL algorithms, by taking advantage of the SRL
setup. Our experiments show that our proposed approach boosts the visitation of
problematic states, improves the learned state representation, and outperforms
the baselines for all tested environments. These results are most apparent for
environments where the baseline methods struggle. Even in simple environments,
our method stabilizes the training, reduces the reward variance, and promotes
sample efficiency.
- Abstract(参考訳): 視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望なアプローチである。
最先端のRLアルゴリズムは、特に画像観察の場合、サンプル効率の観点からはまだ苦戦している。
これにより、状態表現学習(SRL)技術をRLパイプラインに統合することに注目が集まるようになった。
この分野での作業は、サンプル効率の大幅な改善、その他のメリットを示している。
しかしながら、このパラダイムを最大限に活用するには、トレーニングに使用するサンプルの品質が重要な役割を果たす。
さらに重要なことに、これらのサンプルの多様性は、視覚ベースのrlのサンプル効率だけでなく、その一般化能力にも影響を及ぼす可能性がある。
本稿では,状態表現学習のためのサンプル多様性を改善する手法を提案する。
提案手法は,SRL設定を利用してRLアルゴリズムの探索能力を向上させる。
実験の結果,提案手法は問題のある状態の訪問を促進し,学習状態の表現を改善し,全てのテスト環境のベースラインを上回ります。
これらの結果は,ベースライン手法が困難である環境において最も顕著である。
簡単な環境でもトレーニングを安定させ,報酬分散を低減し,サンプル効率を向上させる。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning [12.277005054008017]
視覚強化学習(RL)では、上流表現学習が下流政策学習の効果を決定づける。
補助訓練データを充実させることで,RLの補助表現学習を改善する。
本研究では、将来の情報を含む可能性のある観測を合成するためのトレーニング不要な手法を提案する。
残りの合成観測と実観測は、クラスタリングに基づく時間的関連タスクを達成する補助データとして機能する。
論文 参考訳(メタデータ) (2024-05-20T02:43:04Z) - Sample Efficient Myopic Exploration Through Multitask Reinforcement
Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。
我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文 参考訳(メタデータ) (2024-03-03T22:57:44Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Mask-based Latent Reconstruction for Reinforcement Learning [58.43247393611453]
マスクをベースとした遅延再構成(MLR)は,空間的および時間的マスキング画素を用いた観測から潜在空間の完全な状態表現を予測するために提案される。
広汎な実験により,MLRは深部強化学習における試料効率を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-01-28T13:07:11Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Making Curiosity Explicit in Vision-based RL [12.829056201510994]
視覚に基づく強化学習(RL)は、画像を主観察対象とする制御課題を解決するための有望な手法である。
最先端のRLアルゴリズムは、まだサンプル効率の面で苦戦している。
サンプルの多様性を改善するためのアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-28T09:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。