論文の概要: Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator
- arxiv url: http://arxiv.org/abs/2410.09728v1
- Date: Sun, 13 Oct 2024 05:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 05:12:47.696529
- Title: Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator
- Title(参考訳): ユニバーサルポリシー適応によるメタ強化学習:全タスク最適比較器下での確率的準最適性
- Authors: Siyuan Xu, Minghui Zhu,
- Abstract要約: 本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.900800253949512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (Meta-RL) has attracted attention due to its capability to enhance reinforcement learning (RL) algorithms, in terms of data efficiency and generalizability. In this paper, we develop a bilevel optimization framework for meta-RL (BO-MRL) to learn the meta-prior for task-specific policy adaptation, which implements multiple-step policy optimization on one-time data collection. Beyond existing meta-RL analyses, we provide upper bounds of the expected optimality gap over the task distribution. This metric measures the distance of the policy adaptation from the learned meta-prior to the task-specific optimum, and quantifies the model's generalizability to the task distribution. We empirically validate the correctness of the derived upper bounds and demonstrate the superior effectiveness of the proposed algorithm over benchmarks.
- Abstract(参考訳): メタ強化学習(Meta-RL)は、データ効率と一般化性の観点から強化学習(RL)アルゴリズムを強化する能力によって注目されている。
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
既存のメタRL解析以外にも,タスク分布に対して期待される最適性ギャップの上限を提供する。
この尺度は、学習したメタプリンシパルからタスク固有の最適までの距離を測定し、タスク分布に対するモデルの一般化可能性を定量化する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
関連論文リスト
- Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - On First-Order Meta-Reinforcement Learning with Moreau Envelopes [1.519321208145928]
Meta-Reinforcement Learning (MRL)は、新しい環境タスクに迅速に適応できるトレーニングエージェントのための有望なフレームワークである。
メタ強化学習(MEMRL)を共同で学習する新しいモロー封筒サロゲート正規化器を提案する。
勾配に基づくマルチタスクナビゲーション問題に対するMEMRLの有効性を示す。
論文 参考訳(メタデータ) (2023-05-20T15:46:55Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies [26.225293232912716]
本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-21T02:27:56Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - On the Global Optimality of Model-Agnostic Meta-Learning [133.16370011229776]
モデル・ア・メタラーニング(MAML)は、メタラーニングを二段階最適化問題として定式化し、内部レベルが各サブタスクを、共有された事前に基づいて解決する。
学習と教師あり学習の両方においてMAMLが達成した定常点の最適性を特徴付ける。
論文 参考訳(メタデータ) (2020-06-23T17:33:14Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。