論文の概要: Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces
- arxiv url: http://arxiv.org/abs/2101.01883v1
- Date: Wed, 6 Jan 2021 05:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 07:25:45.318825
- Title: Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces
- Title(参考訳): 特徴埋め込み空間に基づくオフポリシーメタ強化学習
- Authors: Takahisa Imagawa, Takuya Hiraoka, Yoshimasa Tsuruoka
- Abstract要約: 学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.029933823101084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-reinforcement learning (RL) addresses the problem of sample inefficiency
in deep RL by using experience obtained in past tasks for a new task to be
solved.
However, most meta-RL methods require partially or fully on-policy data,
i.e., they cannot reuse the data collected by past policies, which hinders the
improvement of sample efficiency.
To alleviate this problem, we propose a novel off-policy meta-RL method,
embedding learning and evaluation of uncertainty (ELUE).
An ELUE agent is characterized by the learning of a feature embedding space
shared among tasks.
It learns a belief model over the embedding space and a belief-conditional
policy and Q-function.
Then, for a new task, it collects data by the pretrained policy, and updates
its belief based on the belief model.
Thanks to the belief update, the performance can be improved with a small
amount of data.
In addition, it updates the parameters of the neural networks to adjust the
pretrained relationships when there are enough data.
We demonstrate that ELUE outperforms state-of-the-art meta RL methods through
experiments on meta-RL benchmarks.
- Abstract(参考訳): メタ強化学習(Meta-Reinforcement Learning, RL)は, 過去の課題から得られた経験を用いて, 深部RLにおけるサンプル非効率性の問題に対処する。
しかし、ほとんどのメタrlメソッドは、部分的にまたは完全にオン・ポリシーなデータを必要とし、すなわち過去のポリシーによって収集されたデータを再利用できないため、サンプル効率の改善を妨げている。
この問題を軽減するために,新たなメタRL法を提案し,学習の埋め込みと不確実性の評価を行う。
ELUEエージェントは、タスク間で共有される特徴埋め込み空間の学習によって特徴付けられる。
埋め込み空間上の信念モデルと、信念条件ポリシーとq関数を学ぶ。
そして、新しいタスクのために、事前訓練されたポリシーでデータを収集し、信念モデルに基づいてその信念を更新する。
信念の更新により、少量のデータでパフォーマンスが向上する。
さらに、ニューラルネットワークのパラメータを更新して、十分なデータがある場合に事前訓練された関係を調整する。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Efficient Meta Reinforcement Learning for Preference-based Fast
Adaptation [17.165083095799712]
本研究では,ループ内強化学習の文脈における少数ショット適応の問題について検討する。
そこで我々は,嗜好に基づくフィードバックによる迅速なポリシー適応を実現するメタRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-11-20T03:55:09Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Keep Doing What Worked: Behavioral Modelling Priors for Offline
Reinforcement Learning [25.099754758455415]
オフポリシー強化学習アルゴリズムは、環境相互作用の固定されたデータセットのみが利用できる設定で適用可能であることを約束する。
標準的なオフポリシーアルゴリズムは、継続的制御のためにバッチ設定で失敗する。
論文 参考訳(メタデータ) (2020-02-19T19:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。