論文の概要: Model-based Adversarial Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.08875v2
- Date: Sat, 27 Feb 2021 13:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:33:38.235237
- Title: Model-based Adversarial Meta-Reinforcement Learning
- Title(参考訳): モデルに基づく反抗的メタ強化学習
- Authors: Zichuan Lin, Garrett Thomas, Guangwen Yang, Tengyu Ma
- Abstract要約: モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
- 参考スコア(独自算出の注目度): 38.28304764312512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta-reinforcement learning (meta-RL) aims to learn from multiple training
tasks the ability to adapt efficiently to unseen test tasks. Despite the
success, existing meta-RL algorithms are known to be sensitive to the task
distribution shift. When the test task distribution is different from the
training task distribution, the performance may degrade significantly. To
address this issue, this paper proposes Model-based Adversarial
Meta-Reinforcement Learning (AdMRL), where we aim to minimize the worst-case
sub-optimality gap -- the difference between the optimal return and the return
that the algorithm achieves after adaptation -- across all tasks in a family of
tasks, with a model-based approach. We propose a minimax objective and optimize
it by alternating between learning the dynamics model on a fixed task and
finding the adversarial task for the current model -- the task for which the
policy induced by the model is maximally suboptimal. Assuming the family of
tasks is parameterized, we derive a formula for the gradient of the
suboptimality with respect to the task parameters via the implicit function
theorem, and show how the gradient estimator can be efficiently implemented by
the conjugate gradient method and a novel use of the REINFORCE estimator. We
evaluate our approach on several continuous control benchmarks and demonstrate
its efficacy in the worst-case performance over all tasks, the generalization
power to out-of-distribution tasks, and in training and test time sample
efficiency, over existing state-of-the-art meta-RL algorithms.
- Abstract(参考訳): meta-reinforcement learning (meta-rl)は、複数のトレーニングタスクから学習し、見えないテストタスクに効率的に適応することを目的としている。
成功にもかかわらず、既存のメタRLアルゴリズムはタスク分散シフトに敏感であることが知られている。
テストタスクの分布がトレーニングタスクの分布と異なる場合、パフォーマンスが著しく低下する可能性がある。
そこで本研究では,モデルベースメタ強化学習(AdMRL)を提案する。モデルベースアプローチにより,タスク群の全タスクにおいて,アルゴリズムが適応後に達成する最適なリターンとリターンの差である,最悪の場合のサブ最適性ギャップを最小化することを目的とする。
固定されたタスク上での動的モデル学習と現在のモデルに対する逆タスク(モデルによって誘導されるポリシーが極端に最適であるタスク)の交互に行うことで、最小限の目標を提案し、それを最適化する。
タスクの族がパラメータ化されると仮定すると、暗黙の関数定理によってタスクパラメータに対する最適値の勾配の式が導出され、この勾配推定器が共役勾配法とREINFORCE推定器の新たな利用によってどのように効率的に実装できるかを示す。
提案手法は,複数の連続制御ベンチマークで評価し,すべてのタスクにおける最悪の性能,分散タスクへの一般化能力,既存のメタrlアルゴリズムに対するトレーニングとテスト時間のサンプル効率において,その効果を実証する。
関連論文リスト
- Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Meta-Reinforcement Learning Based on Self-Supervised Task Representation
Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。
MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文 参考訳(メタデータ) (2023-04-29T15:46:19Z) - Task Weighting in Meta-learning with Trajectory Optimisation [37.32107678838193]
本稿では,メタ学習のためのタスク重み付けアルゴリズムを提案する。
動作と同一のミニバッチ内のタスクの重みを考慮し,タスク重み付けメタ学習問題を軌跡最適化に投入した。
提案手法は,2つの数ショット学習ベンチマークにおいて,手動重み付け法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-04T01:36:09Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - Submodular Meta-Learning [43.15332631500541]
将来的なタスクのパフォーマンス向上のために,メタラーニングフレームワークの個別版を導入する。
我々のアプローチは、事前データ、すなわち、以前に訪れたタスクを使用して、適切な初期ソリューションセットをトレーニングすることを目的としている。
我々のフレームワークは、性能損失を小さく抑えながら、新しいタスクを解く際に、計算の複雑さを著しく低減させることを示した。
論文 参考訳(メタデータ) (2020-07-11T21:02:48Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。