論文の概要: Unsupervised Model-based Pre-training for Data-efficient Control from
Pixels
- arxiv url: http://arxiv.org/abs/2209.12016v1
- Date: Sat, 24 Sep 2022 14:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:37:20.536964
- Title: Unsupervised Model-based Pre-training for Data-efficient Control from
Pixels
- Title(参考訳): データ効率制御のための教師なしモデルベース事前学習
- Authors: Sai Rajeswar, Pietro Mazzaglia, Tim Verbelen, Alexandre Pich\'e, Bart
Dhoedt, Aaron Courville, Alexandre Lacoste
- Abstract要約: データ効率のよい視覚制御のための効果的な教師なしRL戦略を設計する。
まず、教師なしRLを用いて収集したデータで事前訓練された世界モデルにより、将来のタスクへの適応が容易になることを示す。
次に、エージェントの事前学習されたコンポーネントを効果的に再利用し、想像力の学習と計画を行うためのいくつかの設計選択を分析する。
- 参考スコア(独自算出の注目度): 112.63440666617494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling artificial agents from visual sensory data is an arduous task.
Reinforcement learning (RL) algorithms can succeed in this but require large
amounts of interactions between the agent and the environment. To alleviate the
issue, unsupervised RL proposes to employ self-supervised interaction and
learning, for adapting faster to future tasks. Yet, whether current
unsupervised strategies improve generalization capabilities is still unclear,
especially in visual control settings. In this work, we design an effective
unsupervised RL strategy for data-efficient visual control. First, we show that
world models pre-trained with data collected using unsupervised RL can
facilitate adaptation for future tasks. Then, we analyze several design choices
to adapt efficiently, effectively reusing the agents' pre-trained components,
and learning and planning in imagination, with our hybrid planner, which we dub
Dyna-MPC. By combining the findings of a large-scale empirical study, we
establish an approach that strongly improves performance on the Unsupervised RL
Benchmark, requiring 20$\times$ less data to match the performance of
supervised methods. The approach also demonstrates robust performance on the
Real-Word RL benchmark, hinting that the approach generalizes to noisy
environments.
- Abstract(参考訳): 視覚感覚データから人工エージェントを制御するのは大変な作業だ。
強化学習(RL)アルゴリズムはこれに成功するが、エージェントと環境の間の大量の相互作用を必要とする。
問題を緩和するために、教師なしのRLは、将来のタスクに迅速に適応するために、自己教師付きインタラクションと学習を採用することを提案する。
しかし、現在の教師なし戦略が一般化能力を改善するかどうかは、特に視覚的制御設定においてまだ不明である。
本研究では、データ効率のよい視覚制御のための効率的な教師なしRL戦略を設計する。
まず,教師なしrlを用いて収集したデータを用いて事前学習した世界モデルが,今後の課題への適応を容易にすることを示す。
そこで我々は,Dyna-MPCをダブしたハイブリッドプランナーを用いて,エージェントの学習済みコンポーネントを効果的に再利用し,想像力で学習と計画を行う設計選択について分析した。
大規模な実証研究の成果を組み合わせることで、教師なしRLベンチマークの性能を強く向上させるアプローチを確立し、教師付き手法の性能に合わせるために20$\times$以下のデータを必要とする。
このアプローチはまた、Real-Word RLベンチマークで堅牢なパフォーマンスを示し、このアプローチがノイズの多い環境に一般化することを示唆している。
関連論文リスト
- PEAR: Primitive enabled Adaptive Relabeling for boosting Hierarchical
Reinforcement Learning [30.533883667629887]
階層的強化学習は、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Light-weight probing of unsupervised representations for Reinforcement
Learning [10.642105903491421]
分散度が低く,計算コストが最大600倍の教師なし視覚表現の評価プロトコルを提案する。
本研究では,ある状態における報酬の予測と,ある状態における専門家の行動の予測という2つの線形探索タスクを提案する。
厳密な実験により,Atari100kベンチマークの下流制御性能と強く相関していることを示す。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。