論文の概要: Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments
- arxiv url: http://arxiv.org/abs/2209.13048v1
- Date: Mon, 26 Sep 2022 22:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 16:36:33.382468
- Title: Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments
- Title(参考訳): スパースリワード環境におけるデモを用いたメタ強化学習の強化
- Authors: Desik Rengarajan, Sapana Chaudhary, Jaewon Kim, Dileep Kalathil,
Srinivas Shakkottai
- Abstract要約: Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
- 参考スコア(独自算出の注目度): 10.360491332190433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta reinforcement learning (Meta-RL) is an approach wherein the experience
gained from solving a variety of tasks is distilled into a meta-policy. The
meta-policy, when adapted over only a small (or just a single) number of steps,
is able to perform near-optimally on a new, related task. However, a major
challenge to adopting this approach to solve real-world problems is that they
are often associated with sparse reward functions that only indicate whether a
task is completed partially or fully. We consider the situation where some
data, possibly generated by a sub-optimal agent, is available for each task. We
then develop a class of algorithms entitled Enhanced Meta-RL using
Demonstrations (EMRLD) that exploit this information even if sub-optimal to
obtain guidance during training. We show how EMRLD jointly utilizes RL and
supervised learning over the offline data to generate a meta-policy that
demonstrates monotone performance improvements. We also develop a warm started
variant called EMRLD-WS that is particularly efficient for sub-optimal
demonstration data. Finally, we show that our EMRLD algorithms significantly
outperform existing approaches in a variety of sparse reward environments,
including that of a mobile robot.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、様々なタスクを解くことによって得られる経験をメタ政治に蒸留する手法である。
メタポリシー(meta-policy)は、小さな(または1つの)ステップしか適応しない場合、新しい関連するタスクでほぼ最適に実行することができる。
しかし、現実の問題を解決するためにこのアプローチを採用する上で大きな課題は、しばしばタスクが部分的に完了したか完全に完了したかのみを示すスパース報酬関数と関連付けられていることである。
サブ最適エージェントが生成する可能性のあるデータの一部が各タスクで利用可能である状況について考察する。
そこで我々は,訓練中のガイダンスを得るために準最適であっても,この情報を活用するアルゴリズムをEMRLD (Enhanced Meta-RL using Demonstrations) と呼ぶ。
EMRLDがRLと教師付き学習をオフラインデータ上で併用して,モノトーン性能の向上を示すメタポリティクスを生成する方法を示す。
また,emrld-wsと呼ばれるウォームスタート型を開発し,サブ最適デモンストレーションデータに対して特に効率的である。
最後に,EMRLDアルゴリズムは,移動ロボットなど,さまざまな報酬環境において,既存のアプローチよりも大幅に優れていることを示す。
関連論文リスト
- MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [18.82398325614491]
本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-14T20:40:36Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Meta-Learning with Self-Improving Momentum Target [72.98879709228981]
メタラーナーの性能を向上させるために,SiMT(Self-improving Momentum Target)を提案する。
SiMTはメタラーナーの時間アンサンブルから適応してターゲットモデルを生成する。
我々は、SiMTが幅広いメタ学習手法と組み合わせることで、大きなパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2022-10-11T06:45:15Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。
同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文 参考訳(メタデータ) (2021-12-24T15:04:43Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。