論文の概要: Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks
- arxiv url: http://arxiv.org/abs/2207.09071v1
- Date: Tue, 19 Jul 2022 04:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:14:11.477824
- Title: Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks
- Title(参考訳): スパースワードタスクにおけるメタ強化学習のための学習アクショントランスレータ
- Authors: Yijie Guo, Qiucheng Wu, Honglak Lee
- Abstract要約: 本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
- 参考スコア(独自算出の注目度): 56.63855534940827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta reinforcement learning (meta-RL) aims to learn a policy solving a set of
training tasks simultaneously and quickly adapting to new tasks. It requires
massive amounts of data drawn from training tasks to infer the common structure
shared among tasks. Without heavy reward engineering, the sparse rewards in
long-horizon tasks exacerbate the problem of sample efficiency in meta-RL.
Another challenge in meta-RL is the discrepancy of difficulty level among
tasks, which might cause one easy task dominating learning of the shared policy
and thus preclude policy adaptation to new tasks. This work introduces a novel
objective function to learn an action translator among training tasks. We
theoretically verify that the value of the transferred policy with the action
translator can be close to the value of the source policy and our objective
function (approximately) upper bounds the value difference. We propose to
combine the action translator with context-based meta-RL algorithms for better
data collection and more efficient exploration during meta-training. Our
approach empirically improves the sample efficiency and performance of meta-RL
algorithms on sparse-reward tasks.
- Abstract(参考訳): meta reinforcement learning(meta-rl)の目的は、一連のトレーニングタスクを同時に解決し、新しいタスクに迅速に適応するポリシーを学ぶことである。
タスク間で共有される共通構造を推測するために、トレーニングタスクから引き出される膨大なデータが必要です。
高度な報酬工学がなければ、長距離作業におけるスパース報酬はメタRLのサンプル効率の問題を悪化させる。
meta-rlのもう一つの課題は、タスク間の難易度の差であり、共有ポリシーの学習を一つの簡単なタスクが支配し、新しいタスクへのポリシー適応を妨げる可能性がある。
本研究は,訓練作業中の行動伝達子を学習する目的関数を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近づき、我々の目的関数(約)が値の差を表わす。
本稿では,アクショントランスレータとコンテキストベースのメタrlアルゴリズムを組み合わせたデータ収集と,メタトレーニング時の探索の効率化を提案する。
提案手法はスパース・リワードタスクにおけるメタRLアルゴリズムのサンプル効率と性能を実証的に改善する。
関連論文リスト
- Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Robust Meta-Reinforcement Learning with Curriculum-Based Task Sampling [0.0]
RMRL-GTS(Robost Meta Reinforcement Learning with Guided Task Sampling)は,スコアとエポックに基づいてタスクサンプリングを制限する効果的な手法であることを示す。
ロバストなメタRLを実現するためには、低得点のタスクを集中的にサンプリングするだけでなく、サンプリングすべきタスクのタスク領域の制限と拡張も必要である。
論文 参考訳(メタデータ) (2022-03-31T05:16:24Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。