論文の概要: Universal Successor Features for Transfer Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.04025v1
- Date: Sun, 5 Jan 2020 03:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 07:34:50.059148
- Title: Universal Successor Features for Transfer Reinforcement Learning
- Title(参考訳): 伝達強化学習のためのユニバーサル継承機能
- Authors: Chen Ma, Dylan R. Ashley, Junfeng Wen, Yoshua Bengio
- Abstract要約: 環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
- 参考スコア(独自算出の注目度): 77.27304854836645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer in Reinforcement Learning (RL) refers to the idea of applying
knowledge gained from previous tasks to solving related tasks. Learning a
universal value function (Schaul et al., 2015), which generalizes over goals
and states, has previously been shown to be useful for transfer. However,
successor features are believed to be more suitable than values for transfer
(Dayan, 1993; Barreto et al.,2017), even though they cannot directly generalize
to new goals. In this paper, we propose (1) Universal Successor Features (USFs)
to capture the underlying dynamics of the environment while allowing
generalization to unseen goals and (2) a flexible end-to-end model of USFs that
can be trained by interacting with the environment. We show that learning USFs
is compatible with any RL algorithm that learns state values using a temporal
difference method. Our experiments in a simple gridworld and with two MuJoCo
environments show that USFs can greatly accelerate training when learning
multiple tasks and can effectively transfer knowledge to new tasks.
- Abstract(参考訳): RL(Transfer in Reinforcement Learning)は、従来のタスクから得られた知識を関連するタスクに応用する考え方である。
目標や状態を一般化する普遍値関数(Schaul et al., 2015)の学習は、これまでは移動に有用であることが示されている。
しかし、後継特徴は転送の値よりも適していると考えられている(Dayan, 1993; Barreto et al., 2017)。
本稿では,(1)環境の基盤となるダイナミクスを把握し,目的の一般化を可能にするユニバーサル継承機能 (USF) と,(2)環境とのインタラクションによってトレーニング可能なUSFのフレキシブルなエンドツーエンドモデルを提案する。
時間差分法を用いて状態を学習する任意のRLアルゴリズムとUSFsの学習が相容れないことを示す。
単純なグリッドワールドと2つのMuJoCo環境による実験により、USFは複数のタスクを学習する際のトレーニングを劇的に加速し、知識を新しいタスクに効果的に伝達できることがわかった。
関連論文リスト
- Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - World Value Functions: Knowledge Representation for Learning and
Planning [14.731788603429774]
本稿では、ゴール指向の一般値関数の一種である世界値関数(WVF)を提案する。
WVFは、与えられたタスクだけでなく、エージェントの環境における他の目標達成タスクの解決方法を表す。
WVFは通常の値関数よりも高速に学習でき、環境のダイナミクスを推測する能力は学習と計画の手法の統合に利用できることを示す。
論文 参考訳(メタデータ) (2022-06-23T18:49:54Z) - World Value Functions: Knowledge Representation for Multitask
Reinforcement Learning [14.731788603429774]
本稿では,世界の熟達度を持つ一般値関数の一種である世界値関数(WVF)を提案する。
我々はエージェントに、そのエージェントが終端遷移を経験するすべての世界状態として定義された内部ゴール空間を割り当てる。
同じ世界のタスクに対して、WVFを学習した事前訓練されたエージェントは、その報酬から直接新しいタスクのポリシーと価値関数を推測できることを示す。
論文 参考訳(メタデータ) (2022-05-18T09:45:14Z) - A Framework of Meta Functional Learning for Regularising Knowledge
Transfer [89.74127682599898]
本研究では,データ豊富なタスクから一般化可能な関数型モデルをメタ学習することで,メタ関数型学習(MFL)の新たなフレームワークを提案する。
MFLは、限定ラベル付きデータに対する機能訓練が学習すべきより差別的な機能を促進することにより、異なる学習タスクに一般化可能な機能正規化に関するメタ知識を計算する。
論文 参考訳(メタデータ) (2022-03-28T15:24:09Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - Fractional Transfer Learning for Deep Model-Based Reinforcement Learning [0.966840768820136]
強化学習(Reinforcement Learning, RL)は、RLエージェントが複雑なタスクを実行することを学ぶために大量のデータを必要とすることで知られている。
モデルベースRLの最近の進歩により、エージェントはずっとデータ効率が良い。
簡単な代替手法として、分数変換学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T12:44:42Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Meta-learning Transferable Representations with a Single Target Domain [46.83481356352768]
微調整とジョイントトレーニングは、下流タスクの精度を常に向上させるわけではない。
伝達可能な特徴を学習するためのメタ表現学習(MeRLin)を提案する。
MeRLinは、様々な実世界のビジョンとNLP転送学習ベンチマークにおいて、従来の最先端のトランスファー学習アルゴリズムを実証的に上回っている。
論文 参考訳(メタデータ) (2020-11-03T01:57:37Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。