論文の概要: TransDreamer: Reinforcement Learning with Transformer World Models
- arxiv url: http://arxiv.org/abs/2202.09481v1
- Date: Sat, 19 Feb 2022 00:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:57:53.699526
- Title: TransDreamer: Reinforcement Learning with Transformer World Models
- Title(参考訳): TransDreamer: トランスフォーマーワールドモデルによる強化学習
- Authors: Chang Chen, Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn
- Abstract要約: 我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。
まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。
実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
- 参考スコア(独自算出の注目度): 30.387428559614186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Dreamer agent provides various benefits of Model-Based Reinforcement
Learning (MBRL) such as sample efficiency, reusable knowledge, and safe
planning. However, its world model and policy networks inherit the limitations
of recurrent neural networks and thus an important question is how an MBRL
framework can benefit from the recent advances of transformers and what the
challenges are in doing so. In this paper, we propose a transformer-based MBRL
agent, called TransDreamer. We first introduce the Transformer State-Space
Model, a world model that leverages a transformer for dynamics predictions. We
then share this world model with a transformer-based policy network and obtain
stability in training a transformer-based RL agent. In experiments, we apply
the proposed model to 2D visual RL and 3D first-person visual RL tasks both
requiring long-range memory access for memory-based reasoning. We show that the
proposed model outperforms Dreamer in these complex tasks.
- Abstract(参考訳): ドリーマーエージェントは、サンプル効率、再利用可能な知識、安全な計画など、モデルベース強化学習(MBRL)の様々な利点を提供する。
しかし、その世界モデルとポリシーネットワークは、リカレントニューラルネットワークの限界を継承しているため、MBRLフレームワークが最近のトランスフォーマーの進歩とそれに伴う課題からどのような恩恵を受けることができるのか、重要な疑問である。
本稿ではTransDreamerと呼ばれる変換器を用いたMBRLエージェントを提案する。
まず,動的予測にトランスフォーマーを利用する世界モデルであるTransformer State-Space Modelを紹介する。
次に、この世界モデルをトランスフォーマーベースのポリシーネットワークで共有し、トランスフォーマーベースのRLエージェントのトレーニングにおける安定性を得る。
実験では,提案モデルを2次元視覚rlタスクと3次元ファーストパーソン視覚rlタスクに適用し,メモリベース推論に長距離メモリアクセスを要求できることを示した。
これらの複雑なタスクにおいて,提案モデルがdreamerよりも優れていることを示す。
関連論文リスト
- Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement [41.7426496795769]
オフラインメタRLの効率的な一般化を実現するメタ決定変換器(Meta-DT)を提案する。
我々は、コンテキスト認識の世界モデルを用いて、コンパクトなタスク表現を学習し、それをコンテキスト条件として注入し、タスク指向のシーケンス生成を誘導する。
また,Meta-DTでは,ベースラインが強いのに比べ,少ない,ゼロショットの一般化能力が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T09:51:30Z) - Comprehensive Performance Modeling and System Design Insights for Foundation Models [1.4455936781559149]
生成AI、特に大きなトランスフォーマーモデルは、科学や産業においてHPCシステム設計を推進している。
本稿では, トランスモデルの性能特性を分析し, トランスモデルに対する感度, 並列化戦略, HPCシステムの特徴について考察する。
本分析では,システム機能を念頭に置いて,異なるトランスフォーマー型の性能モデリングを行う必要があることを強調した。
論文 参考訳(メタデータ) (2024-09-30T22:56:42Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Preference Transformer: Modeling Human Preferences using Transformers
for RL [165.33887165572128]
Preference Transformerは、トランスフォーマーを使用して人間の好みをモデル化するニューラルネットワークである。
そこで,Preference Transformerは,従来のアプローチでは動作しないが,実際の人間の好みを使って様々な制御タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-03-02T04:24:29Z) - A Survey on Transformers in Reinforcement Learning [66.23773284875843]
Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。
近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。
本稿では,RLにおけるトランスフォーマーの利用の動機と進歩を体系的にレビューし,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。
論文 参考訳(メタデータ) (2023-01-08T14:04:26Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。