論文の概要: Self-Supervised Reinforcement Learning that Transfers using Random
Features
- arxiv url: http://arxiv.org/abs/2305.17250v1
- Date: Fri, 26 May 2023 20:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:02:42.581830
- Title: Self-Supervised Reinforcement Learning that Transfers using Random
Features
- Title(参考訳): ランダム特徴を用いた自己監督型強化学習
- Authors: Boyuan Chen, Chuning Zhu, Pulkit Agrawal, Kaiqing Zhang, Abhishek
Gupta
- Abstract要約: 本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
- 参考スコア(独自算出の注目度): 41.00256493388967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning algorithms have exhibited great potential
in solving single-task sequential decision-making problems with
high-dimensional observations and long horizons, but are known to be hard to
generalize across tasks. Model-based RL, on the other hand, learns
task-agnostic models of the world that naturally enables transfer across
different reward functions, but struggles to scale to complex environments due
to the compounding error. To get the best of both worlds, we propose a
self-supervised reinforcement learning method that enables the transfer of
behaviors across tasks with different rewards, while circumventing the
challenges of model-based RL. In particular, we show self-supervised
pre-training of model-free reinforcement learning with a number of random
features as rewards allows implicit modeling of long-horizon environment
dynamics. Then, planning techniques like model-predictive control using these
implicit models enable fast adaptation to problems with new reward functions.
Our method is self-supervised in that it can be trained on offline datasets
without reward labels, but can then be quickly deployed on new tasks. We
validate that our proposed method enables transfer across tasks on a variety of
manipulation and locomotion domains in simulation, opening the door to
generalist decision-making agents.
- Abstract(参考訳): モデルなし強化学習アルゴリズムは、高次元の観測と長い地平線で単一タスクの逐次決定問題を解く大きな可能性を示したが、タスクをまたいだ一般化は困難であることが知られている。
一方、モデルベースRLは、異なる報酬関数間の移動を自然に可能とする世界のタスク非依存モデルを学ぶが、複合的エラーのため複雑な環境へのスケールに苦慮する。
両世界を最大限に活用するために,モデルベースRLの課題を回避しつつ,タスク間での行動伝達を可能にする自己指導型強化学習手法を提案する。
特に,モデルフリー強化学習の自己教師あり事前学習において,ランダムな特徴を多数有し,長期ホリゾン環境ダイナミクスの暗黙的モデリングを可能にすることを示す。
そして、これらの暗黙のモデルを用いたモデル予測制御のような計画技術は、新しい報酬関数による問題への迅速な適応を可能にする。
このメソッドは、報酬ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという点で、自己監視されている。
提案手法は,シミュレーションにおける様々な操作領域や移動領域のタスク間の移動を可能とし,汎用的な意思決定エージェントへの扉を開く。
関連論文リスト
- On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of
Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。
未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。
実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T23:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。