論文の概要: A model-based approach to meta-Reinforcement Learning: Transformers and
tree search
- arxiv url: http://arxiv.org/abs/2208.11535v1
- Date: Wed, 24 Aug 2022 13:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:10:07.507318
- Title: A model-based approach to meta-Reinforcement Learning: Transformers and
tree search
- Title(参考訳): メタ強化学習へのモデルベースアプローチ:トランスフォーマーと木探索
- Authors: Brieuc Pinon and Jean-Charles Delvenne and Rapha\"el Jungers
- Abstract要約: 本稿では,メタRLにおける探索とエクスプロイトを成功させるために,オンラインプランニングにおけるモデルベースアプローチの有効性を示す。
メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。
- 参考スコア(独自算出の注目度): 1.1602089225841632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meta-learning is a line of research that develops the ability to leverage
past experiences to efficiently solve new learning problems. Meta-Reinforcement
Learning (meta-RL) methods demonstrate a capability to learn behaviors that
efficiently acquire and exploit information in several meta-RL problems.
In this context, the Alchemy benchmark has been proposed by Wang et al.
[2021]. Alchemy features a rich structured latent space that is challenging for
state-of-the-art model-free RL methods. These methods fail to learn to properly
explore then exploit.
We develop a model-based algorithm. We train a model whose principal block is
a Transformer Encoder to fit the symbolic Alchemy environment dynamics. Then we
define an online planner with the learned model using a tree search method.
This algorithm significantly outperforms previously applied model-free RL
methods on the symbolic Alchemy problem.
Our results reveal the relevance of model-based approaches with online
planning to perform exploration and exploitation successfully in meta-RL.
Moreover, we show the efficiency of the Transformer architecture to learn
complex dynamics that arise from latent spaces present in meta-RL problems.
- Abstract(参考訳): メタラーニング(Meta-learning)は、過去の経験を活用して新しい学習問題を効率的に解決する能力を開発する研究のシリーズである。
メタ強化学習(Meta-RL)法は,複数のメタRL問題において効率的に情報を取得し,活用する行動学習能力を示す。
この文脈では、AlchemyベンチマークはWangらによって提案されている。
[2021].
Alchemyは、最先端のモデルフリーなRL法では困難であるリッチな構造化潜在空間を特徴としている。
これらのメソッドは、適切な探索とエクスプロイトを学ばない。
我々はモデルに基づくアルゴリズムを開発した。
我々は,シンボリック錬金術環境ダイナミクスに適合するトランスフォーマエンコーダを主ブロックとするモデルを訓練する。
そして木探索手法を用いて学習モデルを用いてオンラインプランナーを定義する。
このアルゴリズムは、シンボリック錬金術問題のモデルフリーなrl法を大幅に上回っている。
本研究は,meta-rlにおける探索と活用を成功させるオンラインプランニングとモデルベースアプローチの関連性を明らかにする。
さらに,メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。
関連論文リスト
- MAMBA: an Effective World Model Approach for Meta-Reinforcement Learning [18.82398325614491]
本稿では,メタRL法とメタRL法の要素に基づくメタRLの新しいモデルベースアプローチを提案する。
本稿では,メタRLベンチマークドメインに対するアプローチの有効性を実証し,より優れたサンプル効率でより高いリターンが得られることを示す。
さらに,より困難な高次元領域のスレート上でのアプローチを検証し,実世界の一般化エージェントへの一歩を踏み出した。
論文 参考訳(メタデータ) (2024-03-14T20:40:36Z) - On Task-Relevant Loss Functions in Meta-Reinforcement Learning and
Online LQR [9.355903533901023]
本稿では,タスク指向方式でシステムや環境のモデルを学習する,サンプル効率のメタRLアルゴリズムを提案する。
メタRLの標準的なモデルベースアプローチとは対照的に,本手法では,環境の決定クリティカルな部分を迅速に捉えるために,値情報を利用する。
論文 参考訳(メタデータ) (2023-12-09T04:52:28Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using
Reinforcement Learning Agents [0.0]
本稿では,課題学習の目的を課題(あるいは課題の集合)の目的にシフトさせるメタラーニング手法を提案する。
我々のモデルであるREIN-2は、RLフレームワーク内で構成されたメタ学習スキームであり、その目的は、他のRLエージェントの作り方を学ぶメタRLエージェントを開発することである。
従来の最先端のDeep RLアルゴリズムと比較して、実験結果は、人気のあるOpenAI Gym環境において、我々のモデルの顕著な性能を示している。
論文 参考訳(メタデータ) (2021-10-11T10:13:49Z) - Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文 参考訳(メタデータ) (2021-02-04T23:40:44Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。