論文の概要: When Do Transformers Shine in RL? Decoupling Memory from Credit
Assignment
- arxiv url: http://arxiv.org/abs/2307.03864v1
- Date: Fri, 7 Jul 2023 23:34:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:57:04.338998
- Title: When Do Transformers Shine in RL? Decoupling Memory from Credit
Assignment
- Title(参考訳): トランスフォーマーはいつRLで輝くのか?
クレジット割り当てからメモリを分離する
- Authors: Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon
- Abstract要約: 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定するという、2つの異なる課題に直面している。
本稿では,これらの異なる量を測定するために,メモリ長とクレジット割り当て長の形式的定義を紹介する。
実験の結果、TransformerはRLアルゴリズムのメモリ容量を増大させ、1500ドル(約1万5000円)ほど前に観測を記憶する必要のあるタスクまでスケールアップできることがわかった。
- 参考スコア(独自算出の注目度): 13.714133202483515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) algorithms face two distinct challenges: learning
effective representations of past and present observations, and determining how
actions influence future returns. Both challenges involve modeling long-term
dependencies. The transformer architecture has been very successful to solve
problems that involve long-term dependencies, including in the RL domain.
However, the underlying reason for the strong performance of Transformer-based
RL methods remains unclear: is it because they learn effective memory, or
because they perform effective credit assignment? After introducing formal
definitions of memory length and credit assignment length, we design simple
configurable tasks to measure these distinct quantities. Our empirical results
reveal that Transformers can enhance the memory capacity of RL algorithms,
scaling up to tasks that require memorizing observations $1500$ steps ago.
However, Transformers do not improve long-term credit assignment. In summary,
our results provide an explanation for the success of Transformers in RL, while
also highlighting an important area for future research and benchmark design.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定する。
どちらの課題も長期的な依存関係のモデリングを伴う。
トランスフォーマーアーキテクチャは、RLドメインを含む長期依存に関わる問題を解決することに成功している。
しかし、トランスフォーマーベースのrlメソッドの強力なパフォーマンスの根本的な理由は、まだ不明である。
メモリ長とクレジット割り当て長の形式的定義を導入した後、これらの異なる量を測定するための簡単な構成可能なタスクを設計する。
実験の結果、トランスフォーマーはrlアルゴリズムのメモリ容量を増大させ、記憶に残る観察を必要とするタスクまでスケールアップできることがわかった。
しかし、トランスフォーマーは長期クレジット割り当てを改善しない。
まとめると、この結果はRLにおけるトランスフォーマーの成功を説明するとともに、将来の研究とベンチマーク設計における重要な領域を強調している。
関連論文リスト
- PDiT: Interleaving Perception and Decision-making Transformers for Deep
Reinforcement Learning [27.128220336919195]
パーセプション・デシジョン・メイキング・インターリーブ・トランス(PDiT)ネットワークを提案する。
実験の結果,PDiTは強いベースラインよりも優れた性能を発揮するだけでなく,抽出可能な特徴表現も達成できることがわかった。
論文 参考訳(メタデータ) (2023-12-26T03:07:10Z) - Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions [143.89572689302497]
大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-18T21:00:38Z) - Transformers in Reinforcement Learning: A Survey [7.622978576824539]
トランスフォーマーは自然言語処理、コンピュータビジョン、ロボット工学といった領域に影響を与え、他のニューラルネットワークと比較してパフォーマンスを改善している。
この調査では、トランスフォーマーが強化学習(RL)でどのように使われているかを調査し、不安定なトレーニング、クレジット割り当て、解釈可能性の欠如、部分的可観測性といった課題に対処するための有望な解決策と見なされている。
論文 参考訳(メタデータ) (2023-07-12T07:51:12Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Recurrent Memory Transformer [0.3529736140137003]
メモリ拡張セグメントレベルリカレント変圧器(リカレントメモリ変圧器)について検討する。
入力や出力シーケンスに特別なメモリトークンを追加することで、Transformerモデルに変更を加えることなくメモリ機構を実装します。
我々のモデルは、より小さなメモリサイズのための言語モデリングにおけるTransformer-XLと同等に動作し、より長いシーケンス処理を必要とするタスクに対して性能を向上する。
論文 参考訳(メタデータ) (2022-07-14T13:00:22Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。