論文の概要: Recurrent Hypernetworks are Surprisingly Strong in Meta-RL
- arxiv url: http://arxiv.org/abs/2309.14970v1
- Date: Tue, 26 Sep 2023 14:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:22:27.527517
- Title: Recurrent Hypernetworks are Surprisingly Strong in Meta-RL
- Title(参考訳): meta-rlのリカレントハイパーネットワークは驚くほど強力
- Authors: Jacob Beck, Risto Vuorio, Zheng Xiong, Shimon Whiteson
- Abstract要約: 深層強化学習は、サンプルの非効率性のために展開するのに実用的でないと悪名高い。
最近の研究は、再帰的ネットワークのような市販のシーケンシャルモデルと合わせて、エンドツーエンドの学習が驚くほど強力なベースラインであることを示唆している。
- 参考スコア(独自算出の注目度): 37.80510757630612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (RL) is notoriously impractical to deploy due to
sample inefficiency. Meta-RL directly addresses this sample inefficiency by
learning to perform few-shot learning when a distribution of related tasks is
available for meta-training. While many specialized meta-RL methods have been
proposed, recent work suggests that end-to-end learning in conjunction with an
off-the-shelf sequential model, such as a recurrent network, is a surprisingly
strong baseline. However, such claims have been controversial due to limited
supporting evidence, particularly in the face of prior work establishing
precisely the opposite. In this paper, we conduct an empirical investigation.
While we likewise find that a recurrent network can achieve strong performance,
we demonstrate that the use of hypernetworks is crucial to maximizing their
potential. Surprisingly, when combined with hypernetworks, the recurrent
baselines that are far simpler than existing specialized methods actually
achieve the strongest performance of all methods evaluated.
- Abstract(参考訳): 深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。
Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。
多くの特殊なメタrl手法が提案されているが、最近の研究は、リカレントネットワークのような市販のシーケンシャルモデルと組み合わせたエンドツーエンド学習が驚くほど強力なベースラインであることを示唆している。
しかし、このような主張は支持する証拠が限られているため、特に前回の作業が正反対に確立された場合、議論を呼んでいる。
本稿では,実証的な調査を行う。
同様に、リカレントネットワークは高いパフォーマンスを達成することができるが、ハイパーネットワークの利用は、その可能性の最大化に不可欠であることを示す。
驚くべきことに、ハイパーネットワークと組み合わせると、既存の特殊メソッドよりもはるかに単純なリカレントベースラインが、評価されるすべてのメソッドの最強のパフォーマンスを達成します。
関連論文リスト
- RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Hypernetworks in Meta-Reinforcement Learning [47.25270748922176]
マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
論文 参考訳(メタデータ) (2022-10-20T15:34:52Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - An Empirical Study of Implicit Regularization in Deep Offline RL [44.62587507925864]
3つのオフラインRLデータセットにおける有効ランクと性能の関係について検討する。
暗黙の正規化が学習力学に与える影響を説明する学習の3つの段階を同定する。
論文 参考訳(メタデータ) (2022-07-05T15:07:31Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。