論文の概要: Linear Representation Meta-Reinforcement Learning for Instant Adaptation
- arxiv url: http://arxiv.org/abs/2101.04750v1
- Date: Tue, 12 Jan 2021 20:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:55:07.816908
- Title: Linear Representation Meta-Reinforcement Learning for Instant Adaptation
- Title(参考訳): インスタント適応のための線形表現メタ強化学習
- Authors: Matt Peng, Banghua Zhu, Jiantao Jiao
- Abstract要約: 本稿では,Fast Linearized Adaptive Policy(FLAP)を紹介する。
FLAPは新しいメタ強化学習(meta-RL)手法であり、アウト・オブ・ディストリビューションタスクにうまく対応できる。
- 参考スコア(独自算出の注目度): 20.711877803169134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Fast Linearized Adaptive Policy (FLAP), a new
meta-reinforcement learning (meta-RL) method that is able to extrapolate well
to out-of-distribution tasks without the need to reuse data from training, and
adapt almost instantaneously with the need of only a few samples during
testing. FLAP builds upon the idea of learning a shared linear representation
of the policy so that when adapting to a new task, it suffices to predict a set
of linear weights. A separate adapter network is trained simultaneously with
the policy such that during adaptation, we can directly use the adapter network
to predict these linear weights instead of updating a meta-policy via gradient
descent, such as in prior meta-RL methods like MAML, to obtain the new policy.
The application of the separate feed-forward network not only speeds up the
adaptation run-time significantly, but also generalizes extremely well to very
different tasks that prior Meta-RL methods fail to generalize to. Experiments
on standard continuous-control meta-RL benchmarks show FLAP presenting
significantly stronger performance on out-of-distribution tasks with up to
double the average return and up to 8X faster adaptation run-time speeds when
compared to prior methods.
- Abstract(参考訳): 本稿では,Fast Linearized Adaptive Policy (FLAP)について紹介する。これは,学習中のデータ再利用を必要とせず,かつ,テスト中のサンプル数個だけでほぼ瞬時に適応できる,新しいメタ強化学習(meta-RL)手法である。
FLAPは方針の共有線形表現を学習するアイデアに基づいており、新しいタスクに適応すると、線形重みの集合を予測するのに十分である。
適応中は、MAMLのような従来のメタRL法のように勾配勾配を更新する代わりに、アダプティブネットワークを用いてこれらの線形重み付けを予測することで、新しいポリシーを得られるように、個別のアダプタネットワークを同時に訓練する。
異なるフィードフォワードネットワークの応用は、適応実行時間を著しく高速化するだけでなく、以前のMeta-RLメソッドでは一般化できなかった非常に異なるタスクに非常によく一般化する。
標準の連続制御メタrlベンチマーク実験では、flapは平均リターンを最大2倍にし、以前の方法と比較して最大8倍高速に適応した実行時間速度を示す。
関連論文リスト
- Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Offline Meta Reinforcement Learning with In-Distribution Online
Adaptation [38.35415999829767]
最初に、オフラインのメタRLにおいて、オフラインデータセットとオンライン適応の間のトランジッション・リワードの分散シフトというユニークな課題を特徴付ける。
我々は、不確実性定量化を伴うIn-Distribution Online Adaptation(IDAQ)と呼ばれる新しい適応フレームワークを提案する。
IDAQは、与えられた不確実性を利用して分配コンテキストを生成し、新しいタスクに対処するための効果的なタスク信念推論を行う。
論文 参考訳(メタデータ) (2023-05-31T03:34:39Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Offline Meta-Reinforcement Learning with Online Self-Supervision [66.42016534065276]
適応ポリシをメタトレーニングするための報酬付きオフラインデータを用いたハイブリッドオフラインメタRLアルゴリズムを提案する。
提案手法では,オフラインデータを用いて報酬関数の分布を学習し,さらにオンラインデータに対する自己監督型報酬ラベルにサンプリングする。
追加データと自己生成報酬を用いることで、エージェントの一般化能力が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2021-07-08T17:01:32Z) - Transfer Bayesian Meta-learning via Weighted Free Energy Minimization [37.51664463278401]
重要な前提は、メタトレーニングタスクとして知られる補助タスクが、デプロイ時に遭遇するタスクと同じ生成分布を共有することである。
本稿では,トランスファーメタラーニングのための重み付き自由エネルギー最小化(WFEM)を提案する。
論文 参考訳(メタデータ) (2021-06-20T15:17:51Z) - Off-Policy Meta-Reinforcement Learning Based on Feature Embedding Spaces [14.029933823101084]
学習と不確実性評価(ELUE)を埋め込んだ新しいオフポリシーメタRL法を提案する。
ELUEは、埋め込み空間と信念条件ポリシーとQ関数に関する信念モデルを学びます。
ELUEは,メタRLベンチマーク実験により,最先端のメタRL法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-06T05:51:38Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。
オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。
本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文 参考訳(メタデータ) (2020-08-13T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。