論文の概要: Self-Supervised Reinforcement Learning that Transfers using Random
Features
- arxiv url: http://arxiv.org/abs/2305.17250v1
- Date: Fri, 26 May 2023 20:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:02:42.581830
- Title: Self-Supervised Reinforcement Learning that Transfers using Random
Features
- Title(参考訳): ランダム特徴を用いた自己監督型強化学習
- Authors: Boyuan Chen, Chuning Zhu, Pulkit Agrawal, Kaiqing Zhang, Abhishek
Gupta
- Abstract要約: 本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
- 参考スコア(独自算出の注目度): 41.00256493388967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-free reinforcement learning algorithms have exhibited great potential
in solving single-task sequential decision-making problems with
high-dimensional observations and long horizons, but are known to be hard to
generalize across tasks. Model-based RL, on the other hand, learns
task-agnostic models of the world that naturally enables transfer across
different reward functions, but struggles to scale to complex environments due
to the compounding error. To get the best of both worlds, we propose a
self-supervised reinforcement learning method that enables the transfer of
behaviors across tasks with different rewards, while circumventing the
challenges of model-based RL. In particular, we show self-supervised
pre-training of model-free reinforcement learning with a number of random
features as rewards allows implicit modeling of long-horizon environment
dynamics. Then, planning techniques like model-predictive control using these
implicit models enable fast adaptation to problems with new reward functions.
Our method is self-supervised in that it can be trained on offline datasets
without reward labels, but can then be quickly deployed on new tasks. We
validate that our proposed method enables transfer across tasks on a variety of
manipulation and locomotion domains in simulation, opening the door to
generalist decision-making agents.
- Abstract(参考訳): モデルなし強化学習アルゴリズムは、高次元の観測と長い地平線で単一タスクの逐次決定問題を解く大きな可能性を示したが、タスクをまたいだ一般化は困難であることが知られている。
一方、モデルベースRLは、異なる報酬関数間の移動を自然に可能とする世界のタスク非依存モデルを学ぶが、複合的エラーのため複雑な環境へのスケールに苦慮する。
両世界を最大限に活用するために,モデルベースRLの課題を回避しつつ,タスク間での行動伝達を可能にする自己指導型強化学習手法を提案する。
特に,モデルフリー強化学習の自己教師あり事前学習において,ランダムな特徴を多数有し,長期ホリゾン環境ダイナミクスの暗黙的モデリングを可能にすることを示す。
そして、これらの暗黙のモデルを用いたモデル予測制御のような計画技術は、新しい報酬関数による問題への迅速な適応を可能にする。
このメソッドは、報酬ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという点で、自己監視されている。
提案手法は,シミュレーションにおける様々な操作領域や移動領域のタスク間の移動を可能とし,汎用的な意思決定エージェントへの扉を開く。
関連論文リスト
- Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - A Dirichlet Process Mixture of Robust Task Models for Scalable Lifelong
Reinforcement Learning [11.076005074172516]
強化学習アルゴリズムは、生涯ストリーミング情報に直面すると、破滅的な忘れ物や干渉に容易に遭遇する。
本稿では,ネットワーク容量を動的に拡張し,新たな知識に適合する拡張寿命RL法を提案する。
提案手法は,拡張寿命の長いRLの実現に成功し,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T09:48:41Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Task-Agnostic Online Reinforcement Learning with an Infinite Mixture of
Gaussian Processes [25.513074215377696]
本稿では,連続的なオンラインモデルに基づく強化学習手法を提案する。
未知のタスク境界を持つタスク非依存の問題を解決するためには、事前トレーニングを必要としない。
実験では,本手法は非定常タスクにおける代替手法よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T23:52:45Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。