論文の概要: Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling
- arxiv url: http://arxiv.org/abs/2203.16801v1
- Date: Thu, 31 Mar 2022 05:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:22:20.194066
- Title: Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling
- Title(参考訳): カリキュラムベースタスクサンプリングによるロバストなメタ強化学習
- Authors: Morio Matsumoto, Hiroya Matsuba, and Toshihiro Kujirai
- Abstract要約: RMRL-GTS(Robost Meta Reinforcement Learning with Guided Task Sampling)は,スコアとエポックに基づいてタスクサンプリングを制限する効果的な手法であることを示す。
ロバストなメタRLを実現するためには、低得点のタスクを集中的にサンプリングするだけでなく、サンプリングすべきタスクのタスク領域の制限と拡張も必要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (meta-RL) acquires meta-policies that show good
performance for tasks in a wide task distribution. However, conventional
meta-RL, which learns meta-policies by randomly sampling tasks, has been
reported to show meta-overfitting for certain tasks, especially for easy tasks
where an agent can easily get high scores. To reduce effects of the
meta-overfitting, we considered meta-RL with curriculum-based task sampling.
Our method is Robust Meta Reinforcement Learning with Guided Task Sampling
(RMRL-GTS), which is an effective method that restricts task sampling based on
scores and epochs. We show that in order to achieve robust meta-RL, it is
necessary not only to intensively sample tasks with poor scores, but also to
restrict and expand the task regions of the tasks to be sampled.
- Abstract(参考訳): メタ強化学習(Meta-RL)は,タスク分散におけるタスクの優れたパフォーマンスを示すメタポリケーションを取得する。
しかし,タスクをランダムにサンプリングすることでメタポリケーションを学習する従来のメタRLは,特にエージェントが高いスコアを得やすいタスクにおいて,特定のタスクに対するメタオーバーフィッティングを示すことが報告されている。
メタオーバーフィッティングの効果を低減するために,カリキュラムベースのタスクサンプリングを用いたメタRLを検討した。
本手法は,RMRL-GTSを用いたロバストメタ強化学習であり,スコアとエポックに基づいたタスクサンプリングを効果的に制限する手法である。
我々は,堅牢なメタrlを実現するためには,スコアの低いタスクを集中的にサンプリングするだけでなく,サンプリングすべきタスクのタスク領域を制限し拡張する必要があることを示す。
関連論文リスト
- Meta-RTL: Reinforcement-Based Meta-Transfer Learning for Low-Resource Commonsense Reasoning [61.8360232713375]
低リソースコモンセンス推論のための強化型マルチソースメタトランスファー学習フレームワーク(Meta-RTL)を提案する。
本稿では,メタトランスファー学習において,対象タスクに対するタスクの寄与を動的に推定する手法を提案する。
実験の結果,Meta-RTLは,強いベースラインと以前のタスク選択戦略を大幅に上回ることがわかった。
論文 参考訳(メタデータ) (2024-09-27T18:22:22Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Learning to generate imaginary tasks for improving generalization in
meta-learning [12.635773307074022]
既存のベンチマークにおけるメタ学習の成功は、メタトレーニングタスクの分布がメタテストタスクをカバーするという仮定に基づいて予測される。
最近のソリューションではメタトレーニングタスクの強化が追求されているが、正確なタスクと十分な想像上のタスクの両方を生成することは、まだ未解決の問題である。
本稿では,タスクアップサンプリングネットワークを通じてタスク表現からメタ学習タスクをアップサンプリングする手法を提案する。さらに,タスクアップサンプリング(ATU)と呼ばれるアプローチにより,タスクを最大化することで,最新のメタラーナーに最大限貢献できるタスクを生成する。
論文 参考訳(メタデータ) (2022-06-09T08:21:05Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。