論文の概要: Performance-Weighed Policy Sampling for Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.06016v1
- Date: Thu, 10 Dec 2020 23:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 08:11:38.914651
- Title: Performance-Weighed Policy Sampling for Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習のための性能評価政策サンプリング
- Authors: Ibrahim Ahmed, Marcos Quinones-Grueiro, Gautam Biswas
- Abstract要約: 強化モデル非依存メタラーニング(E-MAML)は、少数のトレーニング例からポリシー関数の高速収束を生成する。
E-MAMLは、以前のタスクの環境で学んだ一連のポリシーパラメータを保持する。
E-MAMLを強化学習(RL)ベースのオンラインフォールトトレラント制御スキームの開発に適用する。
- 参考スコア(独自算出の注目度): 1.77898701462905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses an Enhanced Model-Agnostic Meta-Learning (E-MAML)
algorithm that generates fast convergence of the policy function from a small
number of training examples when applied to new learning tasks. Built on top of
Model-Agnostic Meta-Learning (MAML), E-MAML maintains a set of policy
parameters learned in the environment for previous tasks. We apply E-MAML to
developing reinforcement learning (RL)-based online fault tolerant control
schemes for dynamic systems. The enhancement is applied when a new fault
occurs, to re-initialize the parameters of a new RL policy that achieves faster
adaption with a small number of samples of system behavior with the new fault.
This replaces the random task sampling step in MAML. Instead, it exploits the
extant previously generated experiences of the controller. The enhancement is
sampled to maximally span the parameter space to facilitate adaption to the new
fault. We demonstrate the performance of our approach combining E-MAML with
proximal policy optimization (PPO) on the well-known cart pole example, and
then on the fuel transfer system of an aircraft.
- Abstract(参考訳): 本稿では,新しい学習課題に適用した場合に,少数の学習例からポリシー関数の高速収束を生成する拡張モデル非依存メタラーニング(E-MAML)アルゴリズムについて述べる。
Model-Agnostic Meta-Learning (MAML)上に構築されたE-MAMLは、以前のタスクの環境で学んだポリシーパラメータのセットを維持している。
動的システムのための強化学習(RL)に基づくオンラインフォールトトレラント制御手法の開発にE-MAMLを適用した。
この強化は、新しい障害が発生したときに適用され、新しい障害によるシステム動作の少数のサンプルでより高速な適応を実現する新しいrlポリシーのパラメータを再初期化する。
これはMAMLのランダムなタスクサンプリングステップを置き換える。
代わりに、すでに生成されたコントローラのエクスペリエンスを利用する。
この拡張は、パラメータ空間に最大にまたがって新しい障害への適応を容易にするためにサンプルされる。
本稿では,E-MAMLとPPOを組み合わせたアプローチの有効性を,よく知られたカートポールの例に示すとともに,航空機の燃料輸送システムについて述べる。
関連論文リスト
- A Moreau Envelope Approach for LQR Meta-Policy Estimation [0.7311194870168775]
離散時間線形時間不変不確実な力学系における線形二次レギュレータ(LQR)のポリシー推定問題について検討する。
本稿では,不確実なシステムの有限な実現法から構築した代用LQRコストを提案し,新しい実現法に適応可能なメタポリティクスを効率的に定義する。
論文 参考訳(メタデータ) (2024-03-26T04:02:09Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Robust MAML: Prioritization task buffer with adaptive learning process
for model-agnostic meta-learning [15.894925018423665]
モデル非依存メタラーニング(MAML)は、最先端のメタラーニングアルゴリズムである。
本稿では適応型学習方式と優先順位付けタスクバッファに基づくより堅牢なMAMLを提案する。
メタ強化学習環境の実験結果は、実質的なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2021-03-15T09:34:34Z) - B-SMALL: A Bayesian Neural Network approach to Sparse Model-Agnostic
Meta-Learning [2.9189409618561966]
本稿では,b-smallアルゴリズムと呼ぶベイズ型ニューラルネットワークに基づくmamlアルゴリズムを提案する。
分類タスクと回帰タスクを用いたB-MAMLのパフォーマンスを実証し、MDLを用いたスパーシファイングBNNのトレーニングがモデルのパラメータフットプリントを実際に改善することを強調した。
論文 参考訳(メタデータ) (2021-01-01T09:19:48Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - La-MAML: Look-ahead Meta Learning for Continual Learning [14.405620521842621]
オンライン連続学習のための高速最適化に基づくメタ学習アルゴリズムであるLook-ahead MAML(La-MAML)を提案する。
La-MAMLは他のリプレイベース、事前ベース、メタラーニングベースアプローチよりも優れたパフォーマンスを実現し、実世界の視覚分類ベンチマークで連続学習を行う。
論文 参考訳(メタデータ) (2020-07-27T23:07:01Z) - On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning [25.163423936635787]
強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
論文 参考訳(メタデータ) (2020-02-12T18:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。