論文の概要: Stabilizing Transformer-Based Action Sequence Generation For Q-Learning
- arxiv url: http://arxiv.org/abs/2010.12698v2
- Date: Fri, 18 Dec 2020 17:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:46:34.955293
- Title: Stabilizing Transformer-Based Action Sequence Generation For Q-Learning
- Title(参考訳): Q-Learningのための変圧器に基づく動作系列生成の安定化
- Authors: Gideon Stein, Andrey Filchenkov, Arip Asadulaev
- Abstract要約: 目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
- 参考スコア(独自算出の注目度): 5.707122938235432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the publication of the original Transformer architecture (Vaswani et
al. 2017), Transformers revolutionized the field of Natural Language
Processing. This, mainly due to their ability to understand timely dependencies
better than competing RNN-based architectures. Surprisingly, this architecture
change does not affect the field of Reinforcement Learning (RL), even though
RNNs are quite popular in RL, and time dependencies are very common in RL.
Recently, Parisotto et al. 2019) conducted the first promising research of
Transformers in RL. To support the findings of this work, this paper seeks to
provide an additional example of a Transformer-based RL method. Specifically,
the goal is a simple Transformer-based Deep Q-Learning method that is stable
over several environments. Due to the unstable nature of Transformers and RL,
an extensive method search was conducted to arrive at a final method that
leverages developments around Transformers as well as Q-learning. The proposed
method can match the performance of classic Q-learning on control environments
while showing potential on some selected Atari benchmarks. Furthermore, it was
critically evaluated to give additional insights into the relation between
Transformers and RL.
- Abstract(参考訳): オリジナルのTransformerアーキテクチャ(Vaswaniら)が出版されてから、Transformersは自然言語処理の分野に革命をもたらした。
これは主に、競合するRNNベースのアーキテクチャよりも、タイムリーな依存関係を理解できるためである。
驚くべきことに、このアーキテクチャの変更は強化学習(RL)の分野には影響しない。
最近、Parisottoら(2019年)は、RLにおけるトランスフォーマーの最初の有望な研究を行った。
この研究の成果を裏付けるために,本論文ではトランスフォーマーベースのrl法の追加例を提案する。
具体的には、トランスフォーマーベースのDeep Q-Learning法で、複数の環境で安定している。
トランスフォーマーとRLの不安定な性質から,Q-ラーニングだけでなくトランスフォーマーの周辺開発も活用する最終手法に到達するための広範な手法探索が実施された。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
さらに、トランスフォーマーとrlの関係についてさらなる洞察を与えるために、批判的に評価された。
関連論文リスト
- Rethinking Transformers in Solving POMDPs [47.14499685668683]
本稿では、部分的に観測可能なマルコフ決定プロセス(POMDP)における一般的なアーキテクチャ、すなわちトランスフォーマーの有効性を精査する。
Transformersがモデル化に苦労する正規言語は、POMDPに再現可能である。
このことはトランスフォーマーがPOMDP固有の帰納バイアスを学習する上で大きな課題となる。
論文 参考訳(メタデータ) (2024-05-27T17:02:35Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - A Survey on Transformers in Reinforcement Learning [66.23773284875843]
Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。
近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。
本稿では,RLにおけるトランスフォーマーの利用の動機と進歩を体系的にレビューし,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。
論文 参考訳(メタデータ) (2023-01-08T14:04:26Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。