論文の概要: On First-Order Meta-Reinforcement Learning with Moreau Envelopes
- arxiv url: http://arxiv.org/abs/2305.12216v1
- Date: Sat, 20 May 2023 15:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:47:02.560420
- Title: On First-Order Meta-Reinforcement Learning with Moreau Envelopes
- Title(参考訳): Moreau Envelopesを用いた一次メタ強化学習について
- Authors: Mohammad Taha Toghani, Sebastian Perez-Salazar, C\'esar A. Uribe
- Abstract要約: Meta-Reinforcement Learning (MRL)は、新しい環境タスクに迅速に適応できるトレーニングエージェントのための有望なフレームワークである。
メタ強化学習(MEMRL)を共同で学習する新しいモロー封筒サロゲート正規化器を提案する。
勾配に基づくマルチタスクナビゲーション問題に対するMEMRLの有効性を示す。
- 参考スコア(独自算出の注目度): 1.519321208145928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-Reinforcement Learning (MRL) is a promising framework for training
agents that can quickly adapt to new environments and tasks. In this work, we
study the MRL problem under the policy gradient formulation, where we propose a
novel algorithm that uses Moreau envelope surrogate regularizers to jointly
learn a meta-policy that is adjustable to the environment of each individual
task. Our algorithm, called Moreau Envelope Meta-Reinforcement Learning
(MEMRL), learns a meta-policy that can adapt to a distribution of tasks by
efficiently updating the policy parameters using a combination of
gradient-based optimization and Moreau Envelope regularization. Moreau
Envelopes provide a smooth approximation of the policy optimization problem,
which enables us to apply standard optimization techniques and converge to an
appropriate stationary point. We provide a detailed analysis of the MEMRL
algorithm, where we show a sublinear convergence rate to a first-order
stationary point for non-convex policy gradient optimization. We finally show
the effectiveness of MEMRL on a multi-task 2D-navigation problem.
- Abstract(参考訳): Meta-Reinforcement Learning (MRL)は、新しい環境やタスクに迅速に適応できるトレーニングエージェントのための有望なフレームワークである。
本研究では,政策勾配の定式化の下でMRL問題を考察し,モロー封筒サロゲート正規化器を用いて各タスクの環境に適応可能なメタ政治を共同で学習する新しいアルゴリズムを提案する。
Moreau Envelope Meta-Reinforcement Learning (MEMRL)と呼ばれる我々のアルゴリズムは、勾配に基づく最適化とMoreau Envelope正規化を組み合わせた政策パラメータを効率的に更新することにより、タスクの分布に適応できるメタポリティクスを学習する。
Moreau Envelopesはポリシー最適化問題のスムーズな近似を提供し、標準的な最適化手法を適用して適切な定常点に収束させることができる。
我々はMEMRLアルゴリズムの詳細な解析を行い、非凸ポリシー勾配最適化のための1次定常点へのサブ線形収束率を示す。
マルチタスク2Dナビゲーション問題に対するMEMRLの有効性を示す。
関連論文リスト
- Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-21T02:27:56Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:26:43Z) - Near Optimal Policy Optimization via REPS [33.992374484681704]
emphrelative entropy policy search (reps) は多くのシミュレーションと実世界のロボットドメインでポリシー学習に成功した。
勾配に基づく解法を用いる場合、REPSの性能には保証がない。
最適規則化ポリシーに好適な収束を維持するためのパラメータ更新を計算するために,基礎となる決定プロセスへの表現的アクセスを利用する手法を提案する。
論文 参考訳(メタデータ) (2021-03-17T16:22:59Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。