論文の概要: Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.07558v2
- Date: Tue, 6 Feb 2024 20:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 19:49:18.330477
- Title: Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning
- Title(参考訳): 確率モデルに基づくメタ強化学習によるデータ効率の高いタスク一般化
- Authors: Arjun Bhardwaj, Jonas Rothfuss, Bhavya Sukhija, Yarden As, Marco
Hutter, Stelian Coros, Andreas Krause
- Abstract要約: PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
- 参考スコア(独自算出の注目度): 58.575939354953526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce PACOH-RL, a novel model-based Meta-Reinforcement Learning
(Meta-RL) algorithm designed to efficiently adapt control policies to changing
dynamics. PACOH-RL meta-learns priors for the dynamics model, allowing swift
adaptation to new dynamics with minimal interaction data. Existing Meta-RL
methods require abundant meta-learning data, limiting their applicability in
settings such as robotics, where data is costly to obtain. To address this,
PACOH-RL incorporates regularization and epistemic uncertainty quantification
in both the meta-learning and task adaptation stages. When facing new dynamics,
we use these uncertainty estimates to effectively guide exploration and data
collection. Overall, this enables positive transfer, even when access to data
from prior tasks or dynamic settings is severely limited. Our experiment
results demonstrate that PACOH-RL outperforms model-based RL and model-based
Meta-RL baselines in adapting to new dynamic conditions. Finally, on a real
robotic car, we showcase the potential for efficient RL policy adaptation in
diverse, data-scarce conditions.
- Abstract(参考訳): 本稿では,モデルに基づくメタ強化学習(Meta-RL)アルゴリズムであるPACOH-RLを紹介する。
PACOH-RLメタ学習は動的モデルに先行し、最小の相互作用データを持つ新しい力学への迅速な適応を可能にする。
既存のメタrlメソッドは豊富なメタラーニングデータを必要とするため、データ取得にコストがかかるロボティクスなどの設定での適用性が制限される。
これを解決するため、PACOH-RLは、メタラーニングとタスク適応の段階において、正規化と疫学的不確実性の定量化を取り入れている。
新しいダイナミクスに直面するとき、探索とデータ収集を効果的に導くために、これらの不確実性推定を使用する。
全体として、以前のタスクや動的設定からのデータにアクセスしても、ポジティブな転送が可能になる。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応した。
最後に、実車上では、多種多様なデータスカース条件下での効率的なRLポリシー適応の可能性を示す。
関連論文リスト
- MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR [9.355903533901023]
本稿では,タスク指向方式でシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
論文 参考訳(メタデータ) (2023-12-09T04:52:28Z) - Task Aware Modulation using Representation Learning: An Approach for Few Shot Learning in Environmental Systems [15.40286222692196]
TAM-RLは異種システムにおける少数ショット学習のための新しいフレームワークである。
2つの実環境データセット上でのTAM-RLの評価を行った。
論文 参考訳(メタデータ) (2023-10-07T07:55:22Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。