論文の概要: Recurrent Action Transformer with Memory
- arxiv url: http://arxiv.org/abs/2306.09459v4
- Date: Tue, 23 Jul 2024 16:17:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 23:43:00.765760
- Title: Recurrent Action Transformer with Memory
- Title(参考訳): メモリ付きリカレントアクショントランス
- Authors: Egor Cherepanov, Alexey Staroverov, Dmitry Yudin, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
テストの結果、メモリの使用はメモリ集約環境におけるパフォーマンスを大幅に改善することが示された。
オフライン強化学習に適用可能な変圧器の記憶機構の研究が促進されることを願っている。
- 参考スコア(独自算出の注目度): 39.58317527488534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the use of transformers in offline reinforcement learning has become a rapidly developing area. This is due to their ability to treat the agent's trajectory in the environment as a sequence, thereby reducing the policy learning problem to sequence modeling. In environments where the agent's decisions depend on past events (POMDPs), capturing both the event itself and the decision point in the context of the model is essential. However, the quadratic complexity of the attention mechanism limits the potential for context expansion. One solution to this problem is to enhance transformers with memory mechanisms. This paper proposes a Recurrent Action Transformer with Memory (RATE), a novel model architecture incorporating a recurrent memory mechanism designed to regulate information retention. To evaluate our model, we conducted extensive experiments on memory-intensive environments (ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid.Memory), classic Atari games and MuJoCo control environments. The results show that using memory can significantly improve performance in memory-intensive environments while maintaining or improving results in classic environments. We hope our findings will stimulate research on memory mechanisms for transformers applicable to offline reinforcement learning.
- Abstract(参考訳): 近年,オフライン強化学習における変圧器の利用が急速に発展している。
これは、環境中のエージェントの軌道をシーケンスとして扱う能力のためであり、それによってポリシー学習問題をシーケンスモデリングに還元する。
エージェントの判断が過去のイベント(POMDP)に依存する環境では、イベント自体とモデルコンテキストにおける決定ポイントの両方をキャプチャすることが不可欠である。
しかし、注意機構の二次的な複雑さは、文脈展開の可能性を制限する。
この問題の解決策の1つは、メモリ機構によるトランスフォーマーの強化である。
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャであるRecurrent Action Transformer with Memory (RATE)を提案する。
本研究では,メモリ集約環境 (ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid.Memory), 古典的アタリゲーム, MuJoCo コントロール環境) について広範囲に実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
オフライン強化学習に適用可能な変圧器の記憶機構の研究が促進されることを願っている。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Cached Transformers: Improving Transformers with Differentiable Memory
Cache [71.28188777209034]
この作業では、Cached Transformerと呼ばれる新しいTransformerモデルが導入されている。
Gated Recurrent Cached (GRC) を使用して、トークンの異なるメモリキャッシュで自己アテンションメカニズムを拡張する。
論文 参考訳(メタデータ) (2023-12-20T03:30:51Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - Think Before You Act: Decision Transformers with Working Memory [44.18926449252084]
決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。
この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。
ダウンストリームタスクの情報を格納、ブレンド、検索するためのワーキングメモリモジュールを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:20:22Z) - Transformers are Meta-Reinforcement Learners [0.060917028769172814]
本稿では,トランスアーキテクチャを用いたメモリ再配置機構を模倣したメタRLエージェントTrMRLを提案する。
本稿では,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を自己注意で計算することを示す。
その結果, TrMRLは同等あるいは優れた性能, サンプル効率, アウト・オブ・ディストリビューションの一般化を示すことがわかった。
論文 参考訳(メタデータ) (2022-06-14T06:21:13Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Augmented Replay Memory in Reinforcement Learning With Continuous
Control [1.6752182911522522]
オンライン強化学習エージェントは、高次値関数に変換することで、現在、増大するデータを処理することができる。
この拡張によりエージェントの状態空間が増大し、より複雑な問題にスケールアップできるだけでなく、冗長なデータや矛盾するデータを学習することで忘れるリスクも増大する。
大量のデータの近似を改善するために、リプレイメモリバッファに格納された過去の経験のランダムなミニバッチを各学習ステップで頻繁に再生する。
論文 参考訳(メタデータ) (2019-12-29T20:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。