論文の概要: On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.03271v1
- Date: Tue, 7 Jun 2022 13:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 20:55:56.792886
- Title: On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning
- Title(参考訳): 微調整Versusメタ強化学習の有効性について
- Authors: Zhao Mandi, Pieter Abbeel, Stephen James
- Abstract要約: 本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
- 参考スコア(独自算出の注目度): 71.55412580325743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent agents should have the ability to leverage knowledge from
previously learned tasks in order to learn new ones quickly and efficiently.
Meta-learning approaches have emerged as a popular solution to achieve this.
However, meta-reinforcement learning (meta-RL) algorithms have thus far been
restricted to simple environments with narrow task distributions. Moreover, the
paradigm of pretraining followed by fine-tuning to adapt to new tasks has
emerged as a simple yet effective solution in supervised and self-supervised
learning. This calls into question the benefits of meta-learning approaches
also in reinforcement learning, which typically come at the cost of high
complexity. We hence investigate meta-RL approaches in a variety of
vision-based benchmarks, including Procgen, RLBench, and Atari, where
evaluations are made on completely novel tasks. Our findings show that when
meta-learning approaches are evaluated on different tasks (rather than
different variations of the same task), multi-task pretraining with fine-tuning
on new tasks performs equally as well, or better, than meta-pretraining with
meta test-time adaptation. This is encouraging for future research, as
multi-task pretraining tends to be simpler and computationally cheaper than
meta-RL. From these findings, we advocate for evaluating future meta-RL methods
on more challenging tasks and including multi-task pretraining with fine-tuning
as a simple, yet strong baseline.
- Abstract(参考訳): 知的エージェントは、新しいタスクを迅速かつ効率的に学習するために、以前に学習したタスクからの知識を活用する能力を持つべきである。
メタ学習アプローチは、これを実現するための一般的なソリューションとして現れています。
しかし,メタ強化学習(meta-RL)アルゴリズムは,タスク分布が狭い単純な環境に限定されている。
さらに、新しいタスクに適応するための微調整に続く事前学習のパラダイムが、教師付き学習と自己教師付き学習のシンプルで効果的なソリューションとして浮上した。
これは、メタ学習アプローチの利点が強化学習においても疑問視される。
そこで我々は,Procgen,RLBench,Atariなど,視覚に基づく様々なベンチマークにおけるメタRLアプローチについて検討する。
その結果、メタ学習アプローチが異なるタスク(同じタスクの異なるバリエーションではなく)で評価される場合、新しいタスクの微調整によるマルチタスク事前訓練は、メタテスト時適応によるメタトレーニングよりも同等か、あるいはそれ以上の効果があることがわかった。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
これらの結果から,より難易度の高いタスクに対するメタrl手法の評価を提唱し,単純かつ強固なベースラインとして,微調整によるマルチタスク事前トレーニングを含める。
関連論文リスト
- Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。