論文の概要: Hypernetworks in Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.11348v1
- Date: Thu, 20 Oct 2022 15:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:15:28.556841
- Title: Hypernetworks in Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習におけるハイパーネットワーク
- Authors: Jacob Beck, Matthew Thomas Jackson, Risto Vuorio, Shimon Whiteson
- Abstract要約: マルチタスク強化学習(RL)とメタRLは、関連するタスクの分布を一般化することにより、サンプル効率を向上させることを目的としている。
最先端の手法はしばしば、各タスクを個別に学習する退化したソリューションよりも優れている。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、メタRLに適用できるので、将来性のある道です。
- 参考スコア(独自算出の注目度): 47.25270748922176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a reinforcement learning (RL) agent on a real-world robotics task
remains generally impractical due to sample inefficiency. Multi-task RL and
meta-RL aim to improve sample efficiency by generalizing over a distribution of
related tasks. However, doing so is difficult in practice: In multi-task RL,
state of the art methods often fail to outperform a degenerate solution that
simply learns each task separately. Hypernetworks are a promising path forward
since they replicate the separate policies of the degenerate solution while
also allowing for generalization across tasks, and are applicable to meta-RL.
However, evidence from supervised learning suggests hypernetwork performance is
highly sensitive to the initialization. In this paper, we 1) show that
hypernetwork initialization is also a critical factor in meta-RL, and that
naive initializations yield poor performance; 2) propose a novel hypernetwork
initialization scheme that matches or exceeds the performance of a
state-of-the-art approach proposed for supervised settings, as well as being
simpler and more general; and 3) use this method to show that hypernetworks can
improve performance in meta-RL by evaluating on multiple simulated robotics
benchmarks.
- Abstract(参考訳): 実世界のロボット作業における強化学習(RL)エージェントの訓練は、サンプルの非効率性のため、一般的には実行不可能である。
マルチタスクRLとメタRLは、関連するタスクの分布を一般化することで、サンプル効率を向上させることを目的としている。
マルチタスクrlでは、アートメソッドの状態が、単に各タスクを個別に学習する退化ソリューションを上回らないことが多い。
Hypernetworksは、退化ソリューションの別々のポリシーを複製し、タスクをまたいだ一般化を可能にし、メタRLに適用できる、有望な道である。
しかし、教師あり学習の証拠は、ハイパーネットワーク性能が初期化に非常に敏感であることを示している。
本稿では,
1) ハイパーネットワークの初期化もメタRLの重要な要因であり, ナイーブ初期化が性能を低下させることを示す。
2) 教師付き設定のために提案された最先端手法の性能に適合または超越した新しいハイパーネットワーク初期化方式を提案し, よりシンプルで汎用性の高いものを提案する。
3) マルチシミュレーションロボットベンチマークの評価により, ハイパーネットワークがメタrlの性能を向上させることを示すために, この手法を用いる。
関連論文リスト
- M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - Recurrent Hypernetworks are Surprisingly Strong in Meta-RL [37.80510757630612]
深部強化学習(Deep reinforcement learning, RL)は, サンプル不効率のため, 展開が困難であることが知られている。
Meta-RLは、このサンプルの非効率性に直接対処し、メタトレーニングで関連するタスクの分散が利用できる場合に、数ショットの学習を実行する。
最近の研究は、繰り返しネットワークのような市販のシーケンシャルモデルと合わせて、エンドツーエンドの学習が驚くほど強力なベースラインであることを示唆している。
論文 参考訳(メタデータ) (2023-09-26T14:42:28Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。