論文の概要: Meta Reinforcement Learning with Successor Feature Based Context
- arxiv url: http://arxiv.org/abs/2207.14723v1
- Date: Fri, 29 Jul 2022 14:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:28:29.043299
- Title: Meta Reinforcement Learning with Successor Feature Based Context
- Title(参考訳): 後継機能に基づくコンテキストを用いたメタ強化学習
- Authors: Xu Han and Feng Wu
- Abstract要約: 本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
- 参考スコア(独自算出の注目度): 51.35452583759734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most reinforcement learning (RL) methods only focus on learning a single task
from scratch and are not able to use prior knowledge to learn other tasks more
effectively. Context-based meta RL techniques are recently proposed as a
possible solution to tackle this. However, they are usually less efficient than
conventional RL and may require many trial-and-errors during training. To
address this, we propose a novel meta-RL approach that achieves competitive
performance comparing to existing meta-RL algorithms, while requires
significantly fewer environmental interactions. By combining context variables
with the idea of decomposing reward in successor feature framework, our method
does not only learn high-quality policies for multiple tasks simultaneously but
also can quickly adapt to new tasks with a small amount of training. Compared
with state-of-the-art meta-RL baselines, we empirically show the effectiveness
and data efficiency of our method on several continuous control tasks.
- Abstract(参考訳): ほとんどの強化学習(RL)手法は、1つのタスクをスクラッチから学習することのみに重点を置いており、事前知識を使って他のタスクをより効果的に学習することはできない。
コンテキストベースのメタRL技術は、この問題に対処するための解決策として最近提案されている。
しかし、通常は従来のRLよりも効率が悪く、訓練中に多くの試行錯誤が必要になることがある。
そこで本研究では,既存のメタRLアルゴリズムと比較して競争性能が向上するメタRL手法を提案する。
コンテキスト変数と、後継機能フレームワークで報酬を分解するアイデアを組み合わせることで、複数のタスクに対して高品質なポリシーを同時に学習するだけでなく、少量のトレーニングで新しいタスクに迅速に適応することができる。
現状のメタRLベースラインと比較して,複数の連続制御タスクにおいて,本手法の有効性とデータ効率を実証的に示す。
関連論文リスト
- A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。