論文の概要: Model Based Meta Learning of Critics for Policy Gradients
- arxiv url: http://arxiv.org/abs/2204.02210v1
- Date: Tue, 5 Apr 2022 13:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:05:25.138192
- Title: Model Based Meta Learning of Critics for Policy Gradients
- Title(参考訳): 政策勾配に対する批判者のモデルベースメタ学習
- Authors: Sarah Bechtle, Ludovic Righetti, Franziska Meier
- Abstract要約: 本稿では,勾配に基づく政策学習に対する批判をメタ学習する枠組みを提案する。
我々のアルゴリズムは、与えられたタスクに対して、基礎的真理Q関数に類似した学習的批評家に導かれる。
メタトレーニングの後、学習した批評家は、新しい目に見えないタスクと環境設定のための新しいポリシーを学ぶのに使うことができる。
- 参考スコア(独自算出の注目度): 19.431964785397717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to seamlessly generalize across different tasks is fundamental for
robots to act in our world. However, learning representations that generalize
quickly to new scenarios is still an open research problem in reinforcement
learning. In this paper we present a framework to meta-learn the critic for
gradient-based policy learning. Concretely, we propose a model-based bi-level
optimization algorithm that updates the critics parameters such that the policy
that is learned with the updated critic gets closer to solving the
meta-training tasks. We illustrate that our algorithm leads to learned critics
that resemble the ground truth Q function for a given task. Finally, after
meta-training, the learned critic can be used to learn new policies for new
unseen task and environment settings via model-free policy gradient
optimization, without requiring a model. We present results that show the
generalization capabilities of our learned critic to new tasks and dynamics
when used to learn a new policy in a new scenario.
- Abstract(参考訳): さまざまなタスクをシームレスに一般化できることは、ロボットが私たちの世界で行動する上で基本です。
しかし、新しいシナリオに素早く一般化する学習表現は、強化学習におけるオープンな研究課題である。
本稿では,勾配に基づく政策学習に対する批判をメタ学習する枠組みを提案する。
具体的には,モデルに基づく二レベル最適化アルゴリズムを提案する。このアルゴリズムでは,批判者によって学習された方針がメタトレーニングタスクの解決に近づくように,批判者パラメータを更新する。
このアルゴリズムは,与えられたタスクの基底的真理q関数に類似した学習的批判を導く。
最後に、メタトレーニングの後、学習した評論家は、モデルを必要としないポリシー勾配最適化を通じて、新しい目に見えないタスクと環境設定の新しいポリシーを学ぶのに使える。
我々は,新しいシナリオで新しい政策を学習する際に,学習した批判者の新しいタスクやダイナミクスに対する一般化能力を示す結果を示す。
関連論文リスト
- Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。
この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。
グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。
本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文 参考訳(メタデータ) (2021-09-29T12:12:59Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。