論文の概要: Improving Context-Based Meta-Reinforcement Learning with Self-Supervised
Trajectory Contrastive Learning
- arxiv url: http://arxiv.org/abs/2103.06386v1
- Date: Wed, 10 Mar 2021 23:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:56:53.076736
- Title: Improving Context-Based Meta-Reinforcement Learning with Self-Supervised
Trajectory Contrastive Learning
- Title(参考訳): 自己改善トラジェクティブ・コントラスト学習による文脈ベースメタ強化学習の改善
- Authors: Bernie Wang, Simon Xu, Kurt Keutzer, Yang Gao, Bichen Wu
- Abstract要約: メタトレーニングを改善するためのトラジェクティブコントラスト学習を提案する。
TCLはコンテキストエンコーダを訓練し、2つの遷移ウィンドウが同じ軌道からサンプリングされるかどうかを予測する。
コンテキストエンコーダのトレーニングを加速し、メタトレーニング全体を改善します。
- 参考スコア(独自算出の注目度): 32.112504515457445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning typically requires orders of magnitude more
samples than single task reinforcement learning methods. This is because
meta-training needs to deal with more diverse distributions and train extra
components such as context encoders. To address this, we propose a novel
self-supervised learning task, which we named Trajectory Contrastive Learning
(TCL), to improve meta-training. TCL adopts contrastive learning and trains a
context encoder to predict whether two transition windows are sampled from the
same trajectory. TCL leverages the natural hierarchical structure of
context-based meta-RL and makes minimal assumptions, allowing it to be
generally applicable to context-based meta-RL algorithms. It accelerates the
training of context encoders and improves meta-training overall. Experiments
show that TCL performs better or comparably than a strong meta-RL baseline in
most of the environments on both meta-RL MuJoCo (5 of 6) and Meta-World
benchmarks (44 out of 50).
- Abstract(参考訳): メタ強化学習は通常、単一のタスク強化学習方法よりも大きなサンプルの順序を必要とします。
これはメタトレーニングがより多様な分散に対処し、コンテキストエンコーダのような余分なコンポーネントを訓練する必要があるためである。
そこで本研究では,メタトレーニングを改善するためにTCL(Trajectory Contrastive Learning)と名付けた,新たな自己監督型学習タスクを提案する。
TCLはコントラスト学習を採用し、同じ軌道から2つの遷移ウィンドウがサンプリングされるかどうかを予測するためにコンテキストエンコーダを訓練する。
TCLはコンテキストベースのメタRLの自然な階層構造を利用し、最小限の仮定を行い、コンテキストベースのメタRLアルゴリズムに適用できる。
コンテキストエンコーダのトレーニングを加速し、メタトレーニング全体を改善します。
実験によると、TCLは、メタRL MuJoCo(6の5)とメタワールドベンチマーク(50の44)の両方のほとんどの環境において、強力なメタRLベースラインよりも優れています。
関連論文リスト
- AMAGO-2: Breaking the Multi-Task Barrier in Meta-Reinforcement Learning with Transformers [28.927809804613215]
我々はTransformerベースの(コンテキスト内での)メタRLの最近の進歩の上に構築する。
エージェントのアクターと批評家の目的の両方を分類項に変換する、単純でスケーラブルなソリューションを評価する。
この設計は、明示的なタスクラベルを使わずに、オンラインマルチタスク適応とメモリ問題に大きな進歩をもたらす。
論文 参考訳(メタデータ) (2024-11-17T22:25:40Z) - ConML: A Universal Meta-Learning Framework with Task-Level Contrastive Learning [49.447777286862994]
ConMLは、さまざまなメタ学習アルゴリズムに適用可能な、普遍的なメタ学習フレームワークである。
我々は、ConMLが最適化ベース、メートル法ベース、およびアモータイズベースメタ学習アルゴリズムとシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2024-10-08T12:22:10Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning [33.19862944149082]
CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。
我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
論文 参考訳(メタデータ) (2020-09-29T09:29:18Z) - Incremental Meta-Learning via Indirect Discriminant Alignment [118.61152684795178]
メタ学習のメタ学習段階において,段階的な学習の概念を発達させる。
我々のアプローチは、完全なメタトレーニングセットでモデルをトレーニングするのと比べて、テスト時に好適に機能する。
論文 参考訳(メタデータ) (2020-02-11T01:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。