論文の概要: URLB: Unsupervised Reinforcement Learning Benchmark
- arxiv url: http://arxiv.org/abs/2110.15191v1
- Date: Thu, 28 Oct 2021 15:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 21:32:27.978694
- Title: URLB: Unsupervised Reinforcement Learning Benchmark
- Title(参考訳): URLB: 教師なし強化学習ベンチマーク
- Authors: Michael Laskin, Denis Yarats, Hao Liu, Kimin Lee, Albert Zhan, Kevin
Lu, Catherine Cang, Lerrel Pinto, Pieter Abbeel
- Abstract要約: 教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
- 参考スコア(独自算出の注目度): 82.36060735454647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) has emerged as a powerful paradigm to solve
a range of complex yet specific control tasks. Yet training generalist agents
that can quickly adapt to new tasks remains an outstanding challenge. Recent
advances in unsupervised RL have shown that pre-training RL agents with
self-supervised intrinsic rewards can result in efficient adaptation. However,
these algorithms have been hard to compare and develop due to the lack of a
unified benchmark. To this end, we introduce the Unsupervised Reinforcement
Learning Benchmark (URLB). URLB consists of two phases: reward-free
pre-training and downstream task adaptation with extrinsic rewards. Building on
the DeepMind Control Suite, we provide twelve continuous control tasks from
three domains for evaluation and open-source code for eight leading
unsupervised RL methods. We find that the implemented baselines make progress
but are not able to solve URLB and propose directions for future research.
- Abstract(参考訳): deep reinforcement learning(rl)は、複雑な特定の制御タスクを解決する強力なパラダイムとして登場した。
しかし、新しいタスクに迅速に適応できる訓練用ジェネラリストエージェントは、いまだに優れた課題である。
教師なしRLの最近の進歩は、自己教師付き固有の報酬を持つ事前訓練されたRLエージェントが効率よく適応できることを示している。
しかし、これらのアルゴリズムは、ベンチマークが統一されていないため、比較と開発が難しい。
そこで本研究では,unsupervised reinforcement learning benchmark (urlb)を提案する。
urlbは、報酬のない事前トレーニングと、外部報酬を伴うダウンストリームタスク適応の2つのフェーズで構成されている。
deepmindコントロールスイートに基づいて、3つのドメインから12の連続制御タスクを提供し、評価と8つの非教師なしrlメソッドのためのオープンソースコードを提供します。
実装されたベースラインは進展するが、URLBを解くことができず、今後の研究の方向性を提案する。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Progress Driven Multi-Agent Curriculum [18.239527837186216]
カリキュラム強化学習は、タスクの難易度を徐々に高めることによって学習を高速化することを目的としている。
本報告では,SPMARL(Self-paced MARL)を用いて,エピソードリターンではなくテキスト学習の進捗状況に基づくタスクの優先順位付けを行う。
論文 参考訳(メタデータ) (2022-05-20T08:16:30Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。