論文の概要: Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning
- arxiv url: http://arxiv.org/abs/2009.13891v3
- Date: Tue, 15 Dec 2020 08:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:10:03.397842
- Title: Towards Effective Context for Meta-Reinforcement Learning: an Approach
based on Contrastive Learning
- Title(参考訳): メタ強化学習における効果的な文脈を目指して--コントラスト学習に基づくアプローチ
- Authors: Haotian Fu, Hongyao Tang, Jianye Hao, Chen Chen, Xidong Feng, Dong Li,
Wulong Liu
- Abstract要約: CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれる新しいメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、それを活用して、コンパクトで十分なコンテキストエンコーダをトレーニングします。
我々は,情報ゲインに基づく新たな目的を導出し,いくつかのステップで情報トラジェクトリを収集する。
- 参考スコア(独自算出の注目度): 33.19862944149082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context, the embedding of previous collected trajectories, is a powerful
construct for Meta-Reinforcement Learning (Meta-RL) algorithms. By conditioning
on an effective context, Meta-RL policies can easily generalize to new tasks
within a few adaptation steps. We argue that improving the quality of context
involves answering two questions: 1. How to train a compact and sufficient
encoder that can embed the task-specific information contained in prior
trajectories? 2. How to collect informative trajectories of which the
corresponding context reflects the specification of tasks? To this end, we
propose a novel Meta-RL framework called CCM (Contrastive learning augmented
Context-based Meta-RL). We first focus on the contrastive nature behind
different tasks and leverage it to train a compact and sufficient context
encoder. Further, we train a separate exploration policy and theoretically
derive a new information-gain-based objective which aims to collect informative
trajectories in a few steps. Empirically, we evaluate our approaches on common
benchmarks as well as several complex sparse-reward environments. The
experimental results show that CCM outperforms state-of-the-art algorithms by
addressing previously mentioned problems respectively.
- Abstract(参考訳): 以前収集したトラジェクトリの埋め込みであるContextはメタ強化学習(Meta-RL)アルゴリズムの強力な構成法である。
効果的なコンテキストを条件付けすることで、メタRLポリシーはいくつかの適応ステップで簡単に新しいタスクに一般化できる。
文脈の質を向上させるには2つの質問に答える必要があると論じています。
1. 事前の軌跡に含まれるタスク固有の情報を組み込むことのできるコンパクトで十分なエンコーダの訓練方法
2 対応するコンテキストがタスクの仕様を反映した情報的トラジェクタの収集方法
そこで本研究では,CCM(Contrastive Learning augmented Context-based Meta-RL)と呼ばれるメタRLフレームワークを提案する。
まず、異なるタスクの背後にある対照的な性質に注目し、コンパクトで十分なコンテキストエンコーダのトレーニングに活用します。
さらに,異なる探索政策を訓練し,いくつかのステップで情報トラジェクトリを収集することを目的とした情報ゲインに基づく新たな目的を理論的に導出する。
経験的に、我々は共通ベンチマークおよびいくつかの複雑なスパースワード環境におけるアプローチを評価した。
実験の結果, ccmは, 前述の問題に対処し, 最先端アルゴリズムよりも優れていた。
関連論文リスト
- Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning [48.79569442193824]
我々は,COMRLアルゴリズムが,タスク変数$M$と,その潜在表現$Z$の相互情報目的を,様々な近似境界を実装して最適化していることを示す。
実演として、$I(Z; M)$の教師付きおよび自己教師型実装を提案し、対応する最適化アルゴリズムがRLベンチマークの幅広いスペクトルにわたって顕著な一般化を示すことを実証的に示す。
本研究は,COMRL法の情報理論基盤を構築し,強化学習の文脈におけるタスク表現学習の理解を深める。
論文 参考訳(メタデータ) (2024-02-04T09:58:42Z) - On Context Distribution Shift in Task Representation Learning for
Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。
この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文 参考訳(メタデータ) (2023-04-01T16:21:55Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - Improving Context-Based Meta-Reinforcement Learning with Self-Supervised
Trajectory Contrastive Learning [32.112504515457445]
メタトレーニングを改善するためのトラジェクティブコントラスト学習を提案する。
TCLはコンテキストエンコーダを訓練し、2つの遷移ウィンドウが同じ軌道からサンプリングされるかどうかを予測する。
コンテキストエンコーダのトレーニングを加速し、メタトレーニング全体を改善します。
論文 参考訳(メタデータ) (2021-03-10T23:31:19Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。