論文の概要: On Transforming Reinforcement Learning by Transformer: The Development
Trajectory
- arxiv url: http://arxiv.org/abs/2212.14164v1
- Date: Thu, 29 Dec 2022 03:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:27:48.935275
- Title: On Transforming Reinforcement Learning by Transformer: The Development
Trajectory
- Title(参考訳): 変圧器による変圧強化学習について:開発軌跡
- Authors: Shengchao Hu, Li Shen, Ya Zhang, Yixin Chen, Dacheng Tao
- Abstract要約: Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
- 参考スコア(独自算出の注目度): 97.79247023389445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer, originally devised for natural language processing, has also
attested significant success in computer vision. Thanks to its super expressive
power, researchers are investigating ways to deploy transformers to
reinforcement learning (RL) and the transformer-based models have manifested
their potential in representative RL benchmarks. In this paper, we collect and
dissect recent advances on transforming RL by transformer (transformer-based RL
or TRL), in order to explore its development trajectory and future trend. We
group existing developments in two categories: architecture enhancement and
trajectory optimization, and examine the main applications of TRL in robotic
manipulation, text-based games, navigation and autonomous driving. For
architecture enhancement, these methods consider how to apply the powerful
transformer structure to RL problems under the traditional RL framework, which
model agents and environments much more precisely than deep RL methods, but
they are still limited by the inherent defects of traditional RL algorithms,
such as bootstrapping and "deadly triad". For trajectory optimization, these
methods treat RL problems as sequence modeling and train a joint state-action
model over entire trajectories under the behavior cloning framework, which are
able to extract policies from static datasets and fully use the long-sequence
modeling capability of the transformer. Given these advancements, extensions
and challenges in TRL are reviewed and proposals about future direction are
discussed. We hope that this survey can provide a detailed introduction to TRL
and motivate future research in this rapidly developing field.
- Abstract(参考訳): もともと自然言語処理のために考案されたtransformerは、コンピュータビジョンにおける大きな成功を証明している。
その超表現力のおかげで、研究者たちはトランスフォーマーを強化学習(RL)に展開する方法を研究しており、トランスフォーマーベースのモデルは代表的RLベンチマークでその可能性を示している。
本稿では, 変圧器(変圧器をベースとしたRL, TRL)によるRL変換の最近の進歩を考察し, その開発軌道と今後の動向について考察する。
既存の開発をアーキテクチャ強化と軌道最適化の2つのカテゴリに分類し,ロボット操作,テキストベースのゲーム,ナビゲーション,自動運転におけるtrlの主な応用について検討した。
アーキテクチャ強化のために、これらの手法は、モデルエージェントと環境が深いRL法よりもはるかに正確であるが、ブートストラップや"deadly triad"のような従来のRLアルゴリズム固有の欠陥によって制限されている従来のRLフレームワークの下で、強力なトランスフォーマー構造をRL問題に適用する方法を検討する。
トラジェクトリ最適化のために、これらの手法は、RL問題をシーケンスモデリングとして扱い、静的データセットからポリシーを抽出し、変換器のロングシーケンスモデリング能力をフル活用できる行動クローニングフレームワークの下で、全トラジェクトリ上でのジョイントステートアクションモデルを訓練する。
これらの進歩を踏まえ、TRLの拡張と課題を概観し、今後の方向性について提案する。
この調査がTRLの詳細な紹介を提供し、この急速に発展する分野における今後の研究の動機となることを願っている。
関連論文リスト
- Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - A Survey on Transformers in Reinforcement Learning [66.23773284875843]
Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。
近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。
本稿では,RLにおけるトランスフォーマーの利用の動機と進歩を体系的にレビューし,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。
論文 参考訳(メタデータ) (2023-01-08T14:04:26Z) - TransDreamer: Reinforcement Learning with Transformer World Models [33.34909288732319]
我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。
まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。
実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-19T00:30:52Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。