論文の概要: Transformers are Meta-Reinforcement Learners
- arxiv url: http://arxiv.org/abs/2206.06614v1
- Date: Tue, 14 Jun 2022 06:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 04:15:50.148406
- Title: Transformers are Meta-Reinforcement Learners
- Title(参考訳): トランスフォーマーはメタ強化学習者です
- Authors: Luckeciano C. Melo
- Abstract要約: 本稿では,トランスアーキテクチャを用いたメモリ再配置機構を模倣したメタRLエージェントTrMRLを提案する。
本稿では,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を自己注意で計算することを示す。
その結果, TrMRLは同等あるいは優れた性能, サンプル効率, アウト・オブ・ディストリビューションの一般化を示すことがわかった。
- 参考スコア(独自算出の注目度): 0.060917028769172814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architecture and variants presented remarkable success across
many machine learning tasks in recent years. This success is intrinsically
related to the capability of handling long sequences and the presence of
context-dependent weights from the attention mechanism. We argue that these
capabilities suit the central role of a Meta-Reinforcement Learning algorithm.
Indeed, a meta-RL agent needs to infer the task from a sequence of
trajectories. Furthermore, it requires a fast adaptation strategy to adapt its
policy for a new task -- which can be achieved using the self-attention
mechanism. In this work, we present TrMRL (Transformers for Meta-Reinforcement
Learning), a meta-RL agent that mimics the memory reinstatement mechanism using
the transformer architecture. It associates the recent past of working memories
to build an episodic memory recursively through the transformer layers. We show
that the self-attention computes a consensus representation that minimizes the
Bayes Risk at each layer and provides meaningful features to compute the best
actions. We conducted experiments in high-dimensional continuous control
environments for locomotion and dexterous manipulation. Results show that TrMRL
presents comparable or superior asymptotic performance, sample efficiency, and
out-of-distribution generalization compared to the baselines in these
environments.
- Abstract(参考訳): トランスフォーマーアーキテクチャと変種は、近年多くの機械学習タスクで顕著な成功を収めた。
この成功は、長いシーケンスを扱う能力と、注意機構からの文脈依存重みの存在に本質的に関係している。
これらの機能はメタ強化学習アルゴリズムの中心的な役割に適合すると主張する。
実際、メタRLエージェントは一連の軌道からタスクを推測する必要がある。
さらに、新しいタスクにポリシーを適用するためには、迅速な適応戦略が必要です。
本稿では,メタRLエージェントであるTrMRL(Transformers for Meta-Reinforcement Learning)について述べる。
これは最近の作業記憶を関連付け、トランスフォーマー層を通じて再帰的にエピソードメモリを構築する。
その結果,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を計算し,最善のアクションを計算するための有意義な機能を提供する。
移動とデクスタース操作のための高次元連続制御環境で実験を行った。
その結果, TrMRLはこれらの環境のベースラインと比較して, 漸近性能, サンプル効率, アウト・オブ・ディストリビューションの一般化に比較して優れていることがわかった。
関連論文リスト
- Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Hierarchical Transformers are Efficient Meta-Reinforcement Learners [19.79721574250755]
本稿では,メタ強化学習のための階層型トランスフォーマー(HTrMRL)について紹介する。
過去のエピソードが豊富な情報源としてどのように機能するかを実証し、我々のモデルは効果的に蒸留し、新しい文脈に適用する。
論文 参考訳(メタデータ) (2024-02-09T13:40:11Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Energy-Efficient and Federated Meta-Learning via Projected Stochastic
Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。
各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文 参考訳(メタデータ) (2021-05-31T08:15:44Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Curriculum in Gradient-Based Meta-Reinforcement Learning [10.447238563837173]
勾配に基づくメタラーナーはタスク分布に敏感であることを示す。
間違ったカリキュラムでは、エージェントはメタオーバーフィッティング、浅い適応、適応不安定の影響を被る。
論文 参考訳(メタデータ) (2020-02-19T01:40:45Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。