論文の概要: REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2110.05128v1
- Date: Mon, 11 Oct 2021 10:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:56:52.212720
- Title: REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents
- Title(参考訳): REIN-2:強化学習エージェントを用いた強化学習エージェントの誕生
- Authors: Aristotelis Lazaridis, Ioannis Vlahavas
- Abstract要約: 本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement Learning (Deep RL) has been in the spotlight for the past
few years, due to its remarkable abilities to solve problems which were
considered to be practically unsolvable using traditional Machine Learning
methods. However, even state-of-the-art Deep RL algorithms have various
weaknesses that prevent them from being used extensively within industry
applications, with one such major weakness being their sample-inefficiency. In
an effort to patch these issues, we integrated a meta-learning technique in
order to shift the objective of learning to solve a task into the objective of
learning how to learn to solve a task (or a set of tasks), which we empirically
show that improves overall stability and performance of Deep RL algorithms. Our
model, named REIN-2, is a meta-learning scheme formulated within the RL
framework, the goal of which is to develop a meta-RL agent (meta-learner) that
learns how to produce other RL agents (inner-learners) that are capable of
solving given environments. For this task, we convert the typical interaction
of an RL agent with the environment into a new, single environment for the
meta-learner to interact with. Compared to traditional state-of-the-art Deep RL
algorithms, experimental results show remarkable performance of our model in
popular OpenAI Gym environments in terms of scoring and sample efficiency,
including the Mountain Car hard-exploration environment.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, ディープ・RL)は、従来の機械学習手法では事実上解決不可能と考えられていた問題の解決に際し、近年注目されている。
しかし、最先端のディープrlアルゴリズムでさえ、業界アプリケーションで広く使用されることを妨げる様々な弱点があり、その主な弱点はサンプル非効率である。
これらの課題に対処するために,我々はメタラーニング手法を統合し,タスクの学習目標をタスク(あるいはタスクの集合)の学習目標にシフトさせることで,Deep RLアルゴリズムの全体的な安定性と性能を向上させることを実証的に示す。
我々のモデルはREIN-2と呼ばれ、RLフレームワーク内で構成されたメタラーニングスキームであり、その目標は、与えられた環境を解決できる他のRLエージェント(インナーラーナー)の作り方を学ぶメタラーニングエージェント(メタラーナー)を開発することである。
このタスクでは、rlエージェントと環境の典型的な相互作用を、メタリーナーが相互作用するための新しい単一の環境に変換する。
従来のdeep rlアルゴリズムと比較すると, 評価とサンプル効率の面では, 人気のあるopenai体育館環境において, 山車のハードエクスプロレーション環境を含め, モデルの性能が著しく向上した。
関連論文リスト
- Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - On the Effectiveness of Fine-tuning Versus Meta-reinforcement Learning [71.55412580325743]
本稿では,新しいタスクを微調整したマルチタスク事前学習がメタテスト時間適応によるメタ事前学習と同等かそれ以上に機能することを示す。
マルチタスク事前学習はメタRLよりもシンプルで計算的に安価である傾向があるため、これは将来の研究を奨励している。
論文 参考訳(メタデータ) (2022-06-07T13:24:00Z) - Meta-Reinforcement Learning in Broad and Non-Parametric Environments [8.091658684517103]
非パラメトリック環境におけるタスクに対するタスク推論に基づくメタRLアルゴリズムTIGRを導入する。
我々は,タスク推論学習から政策訓練を分離し,教師なしの再構築目標に基づいて推論機構を効率的に訓練する。
半チーター環境に基づく定性的に異なるタスクのベンチマークを行い、最先端のメタRL手法と比較してTIGRの優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T19:32:44Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。