論文の概要: Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization
- arxiv url: http://arxiv.org/abs/2104.14386v1
- Date: Thu, 29 Apr 2021 14:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 18:11:24.708559
- Title: Pre-training of Deep RL Agents for Improved Learning under Domain
Randomization
- Title(参考訳): ドメインランダム化学習のための深部RLエージェントの事前学習
- Authors: Artemij Amiranashvili, Max Argus, Lukas Hermann, Wolfram Burgard,
Thomas Brox
- Abstract要約: 我々は、すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習方法を示す。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境において、ゼロショットで物理ロボットに転送する結果を連続的に改善することを示す。
- 参考スコア(独自算出の注目度): 63.09932240840656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual domain randomization in simulated environments is a widely used method
to transfer policies trained in simulation to real robots. However, domain
randomization and augmentation hamper the training of a policy. As
reinforcement learning struggles with a noisy training signal, this additional
nuisance can drastically impede training. For difficult tasks it can even
result in complete failure to learn. To overcome this problem we propose to
pre-train a perception encoder that already provides an embedding invariant to
the randomization. We demonstrate that this yields consistently improved
results on a randomized version of DeepMind control suite tasks and a stacking
environment on arbitrary backgrounds with zero-shot transfer to a physical
robot.
- Abstract(参考訳): シミュレーション環境におけるビジュアルドメインのランダム化は、シミュレーションで訓練されたポリシーを実際のロボットに移すために広く使われている手法である。
しかし、ドメインのランダム化と拡張はポリシーのトレーニングを妨げる。
強化学習はノイズの多い訓練信号に苦しむため、この追加のニュアンスはトレーニングを劇的に阻害する可能性がある。
難しいタスクでは、学習が完全に失敗することもあります。
この問題を解決するために,すでにランダム化に不変な埋め込み型を提供する知覚エンコーダの事前学習を提案する。
本研究では、DeepMind制御スイートタスクのランダム化バージョンと、任意の背景上の積み重ね環境におけるゼロショットを物理ロボットに転送することで、一貫した改善結果が得られることを示す。
関連論文リスト
- Uncertainty-Aware Deployment of Pre-trained Language-Conditioned Imitation Learning Policies [29.00293625794431]
本稿では,事前学習した言語条件の模倣学習エージェントの,不確実性を考慮したデプロイ手法を提案する。
具体的には、温度スケーリングを用いてこれらのモデルをキャリブレーションし、キャリブレーションされたモデルを利用して不確実性を認識した決定を行う。
本稿では,3つの事前学習モデルを用いてシミュレーションを行い,タスク完了率を大幅に向上させる可能性を示す。
論文 参考訳(メタデータ) (2024-03-27T03:19:36Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Continual Test-Time Domain Adaptation [94.51284735268597]
テスト時ドメイン適応は、ソースデータを使用しずに、ソース事前訓練されたモデルをターゲットドメインに適応することを目的としている。
CoTTAは実装が容易で、市販の事前訓練モデルに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2022-03-25T11:42:02Z) - Safe Deep RL in 3D Environments using Human Feedback [15.038298345682556]
ReQueSTは、安全な人間の軌道から環境の神経シミュレータを学習することで問題を解決することを目的としている。
実際の人間からフィードバックを得た複雑な3D環境において、このアプローチが実現可能かどうかはまだ分かっていない。
その結果, 標準強化学習と比較して, 不安全行動の桁違いの減少が認められた。
論文 参考訳(メタデータ) (2022-01-20T10:26:34Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。