論文の概要: Introducing Symmetries to Black Box Meta Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2109.10781v1
- Date: Wed, 22 Sep 2021 15:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:00:03.819978
- Title: Introducing Symmetries to Black Box Meta Reinforcement Learning
- Title(参考訳): ブラックボックスメタ強化学習への対称性の導入
- Authors: Louis Kirsch, Sebastian Flennerhag, Hado van Hasselt, Abram Friesen,
Junhyuk Oh, Yutian Chen
- Abstract要約: いわゆるブラックボックスアプローチでは、ポリシーと学習アルゴリズムは1つのニューラルネットワークによって共同で表現される。
メタラーンがバックプロパゲーションに基づく学習の目標となるメタRLアプローチが,特定の対称性を示すことを示す。
これらの対称性はメタ一般化において重要な役割を果たす。
- 参考スコア(独自算出の注目度): 26.338797667571693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meta reinforcement learning (RL) attempts to discover new RL algorithms
automatically from environment interaction. In so-called black-box approaches,
the policy and the learning algorithm are jointly represented by a single
neural network. These methods are very flexible, but they tend to underperform
in terms of generalisation to new, unseen environments. In this paper, we
explore the role of symmetries in meta-generalisation. We show that a recent
successful meta RL approach that meta-learns an objective for
backpropagation-based learning exhibits certain symmetries (specifically the
reuse of the learning rule, and invariance to input and output permutations)
that are not present in typical black-box meta RL systems. We hypothesise that
these symmetries can play an important role in meta-generalisation. Building
off recent work in black-box supervised meta learning, we develop a black-box
meta RL system that exhibits these same symmetries. We show through careful
experimentation that incorporating these symmetries can lead to algorithms with
a greater ability to generalise to unseen action & observation spaces, tasks,
and environments.
- Abstract(参考訳): メタ強化学習(RL)は環境相互作用から新しいRLアルゴリズムを自動的に発見する。
いわゆるブラックボックスアプローチでは、ポリシと学習アルゴリズムは単一のニューラルネットワークで表現される。
これらの手法は非常に柔軟であるが、新しい目に見えない環境への一般化という点では性能が劣る傾向にある。
本稿ではメタ一般化における対称性の役割について考察する。
バックプロパゲーションに基づく学習の目的をメタ学習する最近のメタrlアプローチは、典型的なブラックボックスメタrlシステムには存在しないある種の対称性(特に学習規則の再利用、入出力順列の不分散)を示している。
メタ一般化においてこれらの対称性が重要な役割を果たすと仮定する。
black-box supervised meta learning の最近の成果を基に,これらと同じ対称性を示す black-box meta rl システムを開発した。
注意深い実験を通して、これらの対称性を取り入れることで、目に見えないアクションや観測空間、タスク、環境に一般化できるアルゴリズムが実現できることを示します。
関連論文リスト
- Black box meta-learning intrinsic rewards for sparse-reward environments [0.0]
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。
我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。
開発したアルゴリズムはパラメトリックと非パラメトリックの双方で連続制御タスクの分布を評価する。
論文 参考訳(メタデータ) (2024-07-31T12:09:33Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Symmetry Detection in Trajectory Data for More Meaningful Reinforcement
Learning Representations [0.0]
本稿では,RL対称性を生の軌跡データから直接検出する手法を提案する。
本研究では, 環境物理とRL政策の双方の基礎となる対称性を推定できる2つのシミュレーションRL事例について実験を行った。
論文 参考訳(メタデータ) (2022-11-29T17:00:26Z) - Enhanced Meta Reinforcement Learning using Demonstrations in Sparse
Reward Environments [10.360491332190433]
Demonstrations を用いた Enhanced Meta-RL というアルゴリズムのクラスを開発する。
本稿では、EMRLDがRLと教師付き学習をオフラインデータ上で併用してメタポリティクスを生成する方法を示す。
また,EMRLDアルゴリズムは,様々なスパース報酬環境における既存手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2022-09-26T22:01:12Z) - Learning from Symmetry: Meta-Reinforcement Learning with Symmetrical
Behaviors and Language Instructions [10.357414274820577]
言語条件付きメタRLは、言語命令とエージェントの動作を一致させることで、一般化能力を向上させる。
対称な動作や言語命令を用いて,新しいタスクを効率的に学習することのできる,デュアルMDPメタ強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-21T20:54:21Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Offline Meta-Reinforcement Learning with Advantage Weighting [125.21298190780259]
本稿では,オフラインメタ強化学習(オフラインメタRL)問題設定を導入し,この設定でよく機能するアルゴリズムを提案する。
オフラインメタRLは、修正済みデータの大規模なバッチ上でモデルを事前学習する、広く成功した教師付き学習戦略に類似している。
本稿では,メタトレーニングの内ループと外ループの両方に対して,シンプルかつ教師付き回帰目標を用いた最適化に基づくメタ学習アルゴリズムである,アドバンテージ重み付きメタアクタ批判(MACAW)を提案する。
論文 参考訳(メタデータ) (2020-08-13T17:57:14Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z) - HMRL: Hyper-Meta Learning for Sparse Reward Reinforcement Learning
Problem [107.52043871875898]
スパース報酬RL問題のためのメタ強化学習フレームワークHyper-Meta RL(HMRL)を開発した。
異なる環境に適応するために共通のメタ状態空間を構築するクロス環境メタ状態埋め込みモジュールを含む3つのモジュールで構成されている。
スパース・リワード環境を用いた実験は、伝達性および政策学習効率の両方においてHMRLの優位性を示す。
論文 参考訳(メタデータ) (2020-02-11T07:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。