論文の概要: On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies
- arxiv url: http://arxiv.org/abs/2209.10072v1
- Date: Wed, 21 Sep 2022 02:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:22:59.561292
- Title: On the Convergence Theory of Meta Reinforcement Learning with
Personalized Policies
- Title(参考訳): パーソナライズポリシーを用いたメタ強化学習の収束理論について
- Authors: Haozhi Wang, Qing Wang, Yunfeng Shao, Dong Li, Jianye Hao, Yinchuan Li
- Abstract要約: 本稿では,メタRL(pMeta-RL)アルゴリズムを提案する。
タスク固有のパーソナライズされたポリシを集約して、すべてのタスクで使用されるメタポリシを更新するとともに、各タスクの平均リターンを最大化するためのパーソナライズされたポリシを維持します。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 26.225293232912716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern meta-reinforcement learning (Meta-RL) methods are mainly developed
based on model-agnostic meta-learning, which performs policy gradient steps
across tasks to maximize policy performance. However, the gradient conflict
problem is still poorly understood in Meta-RL, which may lead to performance
degradation when encountering distinct tasks. To tackle this challenge, this
paper proposes a novel personalized Meta-RL (pMeta-RL) algorithm, which
aggregates task-specific personalized policies to update a meta-policy used for
all tasks, while maintaining personalized policies to maximize the average
return of each task under the constraint of the meta-policy. We also provide
the theoretical analysis under the tabular setting, which demonstrates the
convergence of our pMeta-RL algorithm. Moreover, we extend the proposed
pMeta-RL algorithm to a deep network version based on soft actor-critic, making
it suitable for continuous control tasks. Experiment results show that the
proposed algorithms outperform other previous Meta-RL algorithms on Gym and
MuJoCo suites.
- Abstract(参考訳): メタ強化学習法 (Meta-RL) は主にモデルに依存しないメタラーニングに基づいて開発され、政策性能を最大化するためにタスク間でポリシー勾配のステップを実行する。
しかし,Meta-RLでは勾配競合問題はまだよく理解されていないため,異なるタスクに遭遇しても性能が低下する可能性がある。
そこで本研究では,タスク固有のパーソナライズされたポリシを集約して,すべてのタスクに使用されるメタポリシーを更新すると同時に,各タスクの平均リターンを最大化するためのパーソナライズされたポリシをメンテナンスする,新しいメタRL(pMeta-RL)アルゴリズムを提案する。
また, pMeta-RLアルゴリズムの収束性を示す表計算条件下での理論解析を行った。
さらに,提案したpMeta-RLアルゴリズムをソフトアクター批判に基づくディープネットワークバージョンに拡張し,連続的な制御タスクに適応する。
実験の結果,提案アルゴリズムは,GymおよびMuJoCoスイートにおいて,他のMeta-RLアルゴリズムよりも優れていた。
関連論文リスト
- Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。
提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-13T05:17:58Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Meta Generative Flow Networks with Personalization for Task-Specific
Adaptation [8.830531142309733]
マルチタスク強化学習とメタ強化学習は、より高い報酬とより頻繁な出来事を伴うタスクに焦点を当てる傾向がある。
GFlowNetsは、低報酬のタスクでGFlowNetsの利点を活用することで、メタ学習アルゴリズム(GFlowMeta)に統合することができる。
本稿では、タスク固有のパーソナライズされたポリシーとメタポリシーを組み合わせた、pGFlowMetaというパーソナライズされたアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-16T10:18:38Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Model-Based Offline Meta-Reinforcement Learning with Regularization [63.35040401948943]
オフラインのMeta-RLは、これらの課題に対処するための有望なアプローチとして現れています。
MerPOは、効率的なタスク構造推論と情報的メタ政治のためのメタモデルを学ぶ。
我々は,MerPOが行動政策とメタ政治の両方に対して,保証された改善を提供することを示す。
論文 参考訳(メタデータ) (2022-02-07T04:15:20Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。