論文の概要: On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2002.05135v3
- Date: Wed, 17 Nov 2021 02:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 19:47:19.982587
- Title: On the Convergence Theory of Debiased Model-Agnostic Meta-Reinforcement
Learning
- Title(参考訳): デバイアスモデル非依存メタ強化学習の収束理論について
- Authors: Alireza Fallah, Kristian Georgiev, Aryan Mokhtari, Asuman Ozdaglar
- Abstract要約: 強化学習(RL)問題に対するモデル非依存メタラーニング(MAML)手法を検討する。
我々は,SG-MRL(Gradient Meta-Reinforcement Learning)と呼ばれるMAML手法の変種を提案する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$ilon$-first-orderの定常点を求める。
- 参考スコア(独自算出の注目度): 25.163423936635787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider Model-Agnostic Meta-Learning (MAML) methods for Reinforcement
Learning (RL) problems, where the goal is to find a policy using data from
several tasks represented by Markov Decision Processes (MDPs) that can be
updated by one step of stochastic policy gradient for the realized MDP. In
particular, using stochastic gradients in MAML update steps is crucial for RL
problems since computation of exact gradients requires access to a large number
of possible trajectories. For this formulation, we propose a variant of the
MAML method, named Stochastic Gradient Meta-Reinforcement Learning (SG-MRL),
and study its convergence properties. We derive the iteration and sample
complexity of SG-MRL to find an $\epsilon$-first-order stationary point, which,
to the best of our knowledge, provides the first convergence guarantee for
model-agnostic meta-reinforcement learning algorithms. We further show how our
results extend to the case where more than one step of stochastic policy
gradient method is used at test time. Finally, we empirically compare SG-MRL
and MAML in several deep RL environments.
- Abstract(参考訳): モデル非依存型メタラーニング(MAML)手法を強化学習(RL)問題に適用し、その目的はマルコフ決定プロセス(MDP)で表される複数のタスクのデータを用いて、実現されたMDPの確率的ポリシー勾配の1ステップで更新できるポリシーを見つけることである。
特に、MAML更新ステップにおける確率勾配の使用は、正確な勾配の計算には多くの可能な軌道にアクセスする必要があるため、RL問題にとって重要である。
この定式化のために,Stochastic Gradient Meta-Reinforcement Learning (SG-MRL) と呼ばれるMAML法の変種を提案し,その収束特性について検討する。
我々はSG-MRLの反復とサンプルの複雑さを導出して$\epsilon$-first-orderの定常点を求める。
さらに,この結果が,確率的方針勾配法の1段階以上をテスト時に用いた場合にまで拡張されることを示す。
最後に, 深部RL環境におけるSG-MRLとMAMLを比較した。
関連論文リスト
- Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Reinforcement Learning in the Wild with Maximum Likelihood-based Model
Transfer [5.92353064090273]
マルコフ決定過程 (MDP) モデルを未知の, 類似のMDPで効率的に学習し, 計画する問題について検討する。
離散的かつ連続的な設定で MTRL 問題に対処する汎用二段階アルゴリズム MLEMTRL を提案する。
我々は,MLEMTRLがスクラッチから学習するよりも新しいMDPの学習を高速化し,ほぼ最適性能を実現することを実証的に実証した。
論文 参考訳(メタデータ) (2023-02-18T09:47:34Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Model-Based Reinforcement Learning with Multinomial Logistic Function Approximation [10.159501412046508]
マルコフ決定過程(MDP)におけるモデルベース強化学習(RL)について検討する。
我々は,多項ロジスティックモデルにより状態遷移が与えられるMPPに対して,証明可能な効率のよいRLアルゴリズムを確立する。
我々の知る限りでは、証明可能な保証付き多項ロジスティック関数近似を用いたモデルベースRLアルゴリズムとしてはこれが初めてである。
論文 参考訳(メタデータ) (2022-12-27T16:25:09Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - Repurposing Pretrained Models for Robust Out-of-domain Few-Shot Learning [23.135033752967598]
そこで本研究では,事前学習済みmamlチェックポイントを新たに提案する手法を提案する。
潜在的分布ミスマッチのため、元のMAMLステップはもはや最適ではないかもしれない。
本稿では,代替メタテスト手法を提案し,逆行訓練と不確実性に基づくステップ適応を組み合わせる。
論文 参考訳(メタデータ) (2021-03-16T12:53:09Z) - B-SMALL: A Bayesian Neural Network approach to Sparse Model-Agnostic
Meta-Learning [2.9189409618561966]
本稿では,b-smallアルゴリズムと呼ぶベイズ型ニューラルネットワークに基づくmamlアルゴリズムを提案する。
分類タスクと回帰タスクを用いたB-MAMLのパフォーマンスを実証し、MDLを用いたスパーシファイングBNNのトレーニングがモデルのパラメータフットプリントを実際に改善することを強調した。
論文 参考訳(メタデータ) (2021-01-01T09:19:48Z) - Theoretical Convergence of Multi-Step Model-Agnostic Meta-Learning [63.64636047748605]
一般的なマルチステップMAMLアルゴリズムに対して収束保証を提供するための新しい理論フレームワークを開発する。
特に,本研究の結果は,収束を保証するためには,内部段階のステップを逆比例して$N$の内段ステップを選択する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-02-18T19:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。