論文の概要: Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling
- arxiv url: http://arxiv.org/abs/2006.07178v2
- Date: Mon, 15 Jun 2020 18:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:49:11.983051
- Title: Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling
- Title(参考訳): モデル同定と経験リラベリングによる分布シフトにロバストなメタ強化学習
- Authors: Russell Mendonca, Xinyang Geng, Chelsea Finn, Sergey Levine
- Abstract要約: 本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
- 参考スコア(独自算出の注目度): 126.69933134648541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms can acquire policies for complex tasks
autonomously. However, the number of samples required to learn a diverse set of
skills can be prohibitively large. While meta-reinforcement learning methods
have enabled agents to leverage prior experience to adapt quickly to new tasks,
their performance depends crucially on how close the new task is to the
previously experienced tasks. Current approaches are either not able to
extrapolate well, or can do so at the expense of requiring extremely large
amounts of data for on-policy meta-training. In this work, we present model
identification and experience relabeling (MIER), a meta-reinforcement learning
algorithm that is both efficient and extrapolates well when faced with
out-of-distribution tasks at test time. Our method is based on a simple
insight: we recognize that dynamics models can be adapted efficiently and
consistently with off-policy data, more easily than policies and value
functions. These dynamics models can then be used to continue training policies
and value functions for out-of-distribution tasks without using
meta-reinforcement learning at all, by generating synthetic experience for the
new task.
- Abstract(参考訳): 強化学習アルゴリズムは、複雑なタスクのポリシーを自律的に取得することができる。
しかし、多様なスキルセットを学ぶのに必要なサンプルの数は、違法に多い可能性がある。
メタ強化学習手法により、エージェントは新しいタスクに素早く適応するために事前の経験を活用することができるが、そのパフォーマンスは、新しいタスクが以前経験したタスクにどの程度近いかに大きく依存する。
現在のアプローチは、うまく外挿できないか、または、オンポリシーなメタトレーニングのために非常に大量のデータを必要とする犠牲にできる。
本研究では,テスト時に分散タスクに直面する場合,効率良く外挿可能なメタ強化学習アルゴリズムであるmodel identification and experience relabeling (mier)を提案する。
我々は、動的モデルがポリシーや値関数よりも簡単に、政策外のデータに効率的かつ一貫して適応できることを認識します。
これらのダイナミクスモデルは、新しいタスクの総合的な経験を生成することによって、メタ強化学習をまったく使わずに、分散タスクのトレーニングポリシーと価値関数を継続するために使うことができる。
関連論文リスト
- ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Learning Adaptable Policy via Meta-Adversarial Inverse Reinforcement
Learning for Decision-making Tasks [2.1485350418225244]
Meta- LearningとAdversarial Inverseforcement Learningを統合した適応型模倣学習モデルを構築します。
敵対的学習と逆強化学習メカニズムを利用して、利用可能なトレーニングタスクからポリシーと報酬機能を同時に学習します。
論文 参考訳(メタデータ) (2021-03-23T17:16:38Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。