論文の概要: Dreaming: Model-based Reinforcement Learning by Latent Imagination
without Reconstruction
- arxiv url: http://arxiv.org/abs/2007.14535v2
- Date: Fri, 12 Mar 2021 03:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:36:05.542840
- Title: Dreaming: Model-based Reinforcement Learning by Latent Imagination
without Reconstruction
- Title(参考訳): dreaming: 潜在想像力によるモデルベース強化学習
- Authors: Masashi Okada, Tadahiro Taniguchi
- Abstract要約: 本稿では,Dreamerのデコーダフリー拡張を提案する。
我々は,ドリーマーの限界の低い証拠から,コントラスト学習という,可能性のないInfoMax目標を導出する。
新たに考案したDreamer with InfoMax and without Generative decoder (Dreaming)は,Dreamerや他のモデルレス強化学習手法と比較して,5つの困難なロボットタスクにおいて最高のスコアを得る。
- 参考スコア(独自算出の注目度): 14.950054143767824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the present paper, we propose a decoder-free extension of Dreamer, a
leading model-based reinforcement learning (MBRL) method from pixels. Dreamer
is a sample- and cost-efficient solution to robot learning, as it is used to
train latent state-space models based on a variational autoencoder and to
conduct policy optimization by latent trajectory imagination. However, this
autoencoding based approach often causes object vanishing, in which the
autoencoder fails to perceives key objects for solving control tasks, and thus
significantly limiting Dreamer's potential. This work aims to relieve this
Dreamer's bottleneck and enhance its performance by means of removing the
decoder. For this purpose, we firstly derive a likelihood-free and InfoMax
objective of contrastive learning from the evidence lower bound of Dreamer.
Secondly, we incorporate two components, (i) independent linear dynamics and
(ii) the random crop data augmentation, to the learning scheme so as to improve
the training performance. In comparison to Dreamer and other recent model-free
reinforcement learning methods, our newly devised Dreamer with InfoMax and
without generative decoder (Dreaming) achieves the best scores on 5 difficult
simulated robotics tasks, in which Dreamer suffers from object vanishing.
- Abstract(参考訳): 本稿では,画素からのモデルベース強化学習(MBRL)手法であるDreamerのデコーダフリー拡張を提案する。
Dreamerはロボット学習のサンプルで費用効率のよいソリューションであり、変分オートエンコーダに基づく潜在状態空間モデルのトレーニングや、潜時軌道想像力によるポリシー最適化に使用される。
しかし、このオートエンコーディングに基づくアプローチは、しばしばオブジェクトの消失を引き起こし、オートエンコーダは制御タスクを解決するために重要なオブジェクトを認識できないため、ドリーマーのポテンシャルは著しく制限される。
この作業は、デコーダを削除することによって、このDreamerのボトルネックを緩和し、パフォーマンスを高めることを目的としている。
この目的のために、我々はまず、ドリーマーの限界の低い証拠から、コントラスト学習の確率自由かつInfoMax目標を導出する。
第2に,2つのコンポーネントを組み込む。
(i)独立線形動力学及び
(ii)トレーニング性能を向上させるために、学習スキームにランダムな作物データ拡張を加えること。
近年のDreamerや他のモデルレス強化学習手法と比較して、Dreamer with InfoMax and without generative decoder (Dreaming) は、Dreamerがオブジェクトの消滅に苦しむ5つの困難なロボットタスクにおいて、最高のスコアを得る。
関連論文リスト
- Dreaming is All You Need [6.706761900460658]
本研究では,探索と精度のバランスをとるために,SleepNetとDreamNetという2つの新しいディープラーニングモデルを紹介する。
SleepNetは、事前訓練されたエンコーダモデルを使用して教師あり学習と教師なし睡眠のステージをシームレスに統合する。
DreamNetは、隠れた状態を再構築するために完全なエンコーダ・デコーダフレームワークを使用しており、人間の"ドレーミング"プロセスを模倣している。
論文 参考訳(メタデータ) (2024-09-03T06:04:39Z) - CURLing the Dream: Contrastive Representations for World Modeling in Reinforcement Learning [0.22615818641180724]
Curled-Dreamerは、コントラスト学習をDreamerV3フレームワークに統合する、新しい強化学習アルゴリズムである。
我々の実験では、Curled-Dreamerは最先端のアルゴリズムより一貫して優れています。
論文 参考訳(メタデータ) (2024-08-11T14:13:22Z) - MuDreamer: Learning Predictive World Models without Reconstruction [58.0159270859475]
本稿では,DreamerV3アルゴリズムに基づく堅牢な強化学習エージェントであるMuDreamerについて述べる。
本手法は,Atari100kベンチマークにおいて,より高速なトレーニングの恩恵を受けながら,同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T22:09:01Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文 参考訳(メタデータ) (2022-06-28T17:44:48Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - DreamingV2: Reinforcement Learning with Discrete World Models without
Reconstruction [14.950054143767824]
本稿では,世界モデルを用いた新しい強化学習手法DreamingV2を提案する。
DreamingV2はDreamerV2とDreamingの共同拡張である。
我々はDreamingV2がロボット学習の信頼性の高いソリューションになると信じている。
論文 参考訳(メタデータ) (2022-03-01T14:44:15Z) - Mastering Atari with Discrete World Models [61.7688353335468]
本稿では,強力な世界モデルのコンパクトな潜伏空間における予測から純粋に振る舞いを学習する強化学習エージェントであるDreamerV2を紹介する。
DreamerV2は、Atariベンチマークにおいて、個別に訓練された世界モデル内での振る舞いを学習することで、55タスクの人間レベルのパフォーマンスを達成する最初のエージェントである。
論文 参考訳(メタデータ) (2020-10-05T17:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。