論文の概要: Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels
- arxiv url: http://arxiv.org/abs/2209.12016v2
- Date: Thu, 25 May 2023 00:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:57:44.376572
- Title: Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels
- Title(参考訳): 教師なし強化学習ベンチマークをPixelからマスターする
- Authors: Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Pich\'e, Bart
Dhoedt, Aaron Courville, Alexandre Lacoste
- Abstract要約: 強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 112.63440666617494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling artificial agents from visual sensory data is an arduous task.
Reinforcement learning (RL) algorithms can succeed but require large amounts of
interactions between the agent and the environment. To alleviate the issue,
unsupervised RL proposes to employ self-supervised interaction and learning,
for adapting faster to future tasks. Yet, as shown in the Unsupervised RL
Benchmark (URLB; Laskin et al. 2021), whether current unsupervised strategies
can improve generalization capabilities is still unclear, especially in visual
control settings. In this work, we study the URLB and propose a new method to
solve it, using unsupervised model-based RL, for pre-training the agent, and a
task-aware fine-tuning strategy combined with a new proposed hybrid planner,
Dyna-MPC, to adapt the agent for downstream tasks. On URLB, our method obtains
93.59% overall normalized performance, surpassing previous baselines by a
staggering margin. The approach is empirically evaluated through a large-scale
empirical study, which we use to validate our design choices and analyze our
models. We also show robust performance on the Real-Word RL benchmark, hinting
at resiliency to environment perturbations during adaptation. Project website:
https://masteringurlb.github.io/
- Abstract(参考訳): 視覚感覚データから人工エージェントを制御するのは大変な作業だ。
強化学習(RL)アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
問題を緩和するために、教師なしのRLは、将来のタスクに迅速に適応するために、自己教師付きインタラクションと学習を採用することを提案する。
しかし、Unsupervised RL Benchmark (URLB; Laskin et al. 2021) で示されているように、現在の教師なし戦略が一般化能力を改善するかどうかはまだ不明である。
本研究では, エージェントを事前学習するための教師なしモデルベースrlと, 新たに提案されたハイブリッドプランナーdyna-mpcを組み合わせたタスクアウェア微調整戦略を用いて, エージェントを下流タスクに適応させる新しい手法を提案する。
URLBでは,従来の基準値を上回る93.59%の正規化性能が得られた。
このアプローチは大規模な実証的研究を通じて実証的に評価され、設計選択の検証とモデル解析に使用しています。
また、Real-Word RLベンチマークでは、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
プロジェクトウェブサイト: https://masteringurlb.github.io/
関連論文リスト
- PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning [30.533883667629887]
階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Light-weight probing of unsupervised representations for Reinforcement
Learning [10.642105903491421]
分散度が低く,計算コストが最大600倍の教師なし視覚表現の評価プロトコルを提案する。
本研究では,ある状態における報酬の予測と,ある状態における専門家の行動の予測という2つの線形探索タスクを提案する。
厳密な実験により,Atari100kベンチマークの下流制御性能と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。