論文の概要: EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model
- arxiv url: http://arxiv.org/abs/2210.00498v1
- Date: Sun, 2 Oct 2022 12:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 14:22:17.019231
- Title: EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model
- Title(参考訳): EUCLID:マルチ選択ダイナミクスモデルによる効率的な教師なし強化学習を目指して
- Authors: Yifu Yuan, Jianye Hao, Fei Ni, Yao Mu, Yan Zheng, Yujing Hu, Jinyi
Liu, Yingfeng Chen, Changjie Fan
- Abstract要約: 教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 46.99510778097286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised reinforcement learning (URL) poses a promising paradigm to learn
useful behaviors in a task-agnostic environment without the guidance of
extrinsic rewards to facilitate the fast adaptation of various downstream
tasks. Previous works focused on the pre-training in a model-free manner while
lacking the study of transition dynamics modeling that leaves a large space for
the improvement of sample efficiency in downstream tasks. To this end, we
propose an Efficient Unsupervised Reinforcement Learning Framework with
Multi-choice Dynamics model (EUCLID), which introduces a novel model-fused
paradigm to jointly pre-train the dynamics model and unsupervised exploration
policy in the pre-training phase, thus better leveraging the environmental
samples and improving the downstream task sampling efficiency. However,
constructing a generalizable model which captures the local dynamics under
different behaviors remains a challenging problem. We introduce the
multi-choice dynamics model that covers different local dynamics under
different behaviors concurrently, which uses different heads to learn the state
transition under different behaviors during unsupervised pre-training and
selects the most appropriate head for prediction in the downstream task.
Experimental results in the manipulation and locomotion domains demonstrate
that EUCLID achieves state-of-the-art performance with high sample efficiency,
basically solving the state-based URLB benchmark and reaching a mean normalized
score of 104.0$\pm$1.2$\%$ in downstream tasks with 100k fine-tuning steps,
which is equivalent to DDPG's performance at 2M interactive steps with 20x more
data.
- Abstract(参考訳): 教師なし強化学習(unsupervised reinforcement learning:url)は、タスクに依存しない環境で有用な振る舞いを学習するための、さまざまな下流タスクの迅速な適応を促進するための、有望なパラダイムである。
従来の研究は、モデルなしの事前学習に重点を置いていたが、下流タスクにおけるサンプル効率を改善するための大きな空間を残した遷移力学モデリングの研究は欠如していた。
本研究では,事前学習段階におけるダイナミクスモデルと非教師付き探索方針を共同で事前学習する新しいモデル融合パラダイムを導入し,環境サンプルの活用と下流タスクサンプリング効率の向上を両立させた,非教師付き強化学習フレームワークを提案する。
しかし、異なる行動下で局所的なダイナミクスを捉える一般化モデルの構築は、依然として難しい課題である。
本研究では,異なる動作下で異なる局所ダイナミクスを同時にカバーするマルチチョイスダイナミクスモデルを導入し,教師なし事前学習中に異なる動作下での状態遷移を学習し,下流タスクにおいて最も適切な予測ヘッドを選択する。
操作とロコモーションドメインの実験的結果は、euclidが高いサンプル効率で最先端のパフォーマンスを達成し、基本的には状態ベースのurlbベンチマークを解決し、平均正規化スコアが104.0$\pm$1.2$$$$$$で100kの微調整ステップで達成されたことを示している。
関連論文リスト
- Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - MS-Net: A Multi-Path Sparse Model for Motion Prediction in Multi-Scenes [1.4451387915783602]
マルチシーンネットワーク(Multi-Scenes Network、別名MS-Net)は、進化過程によって訓練されたマルチパススパースモデルである。
MS-Netは、推論段階でパラメータのサブセットを選択的に活性化し、各シーンの予測結果を生成する。
実験の結果,MS-Netは既存の歩行者行動予測データセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-01T08:32:12Z) - Dynamic-Resolution Model Learning for Object Pile Manipulation [33.05246884209322]
本研究では,様々な抽象レベルで動的かつ適応的な表現を学習し,効率と効率の最適なトレードオフを実現する方法について検討する。
具体的には、環境の動的分解能粒子表現を構築し、グラフニューラルネットワーク(GNN)を用いた統一力学モデルを学ぶ。
本手法は, 粒状オブジェクトの収集, ソート, 再分配において, 最先端の固定解像度ベースラインよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-06-29T05:51:44Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Temporal Difference Learning for Model Predictive Control [29.217382374051347]
データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
論文 参考訳(メタデータ) (2022-03-09T18:58:28Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。