論文の概要: Decision S4: Efficient Sequence-Based RL via State Spaces Layers
- arxiv url: http://arxiv.org/abs/2306.05167v1
- Date: Thu, 8 Jun 2023 13:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:25:57.470417
- Title: Decision S4: Efficient Sequence-Based RL via State Spaces Layers
- Title(参考訳): 決定S4: 状態空間層による効率的なシーケンスベースRL
- Authors: Shmuel Bar-David, Itamar Zimerman, Eliya Nachmani, Lior Wolf
- Abstract要約: 我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
- 参考スコア(独自算出の注目度): 87.3063565438089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, sequence learning methods have been applied to the problem of
off-policy Reinforcement Learning, including the seminal work on Decision
Transformers, which employs transformers for this task. Since transformers are
parameter-heavy, cannot benefit from history longer than a fixed window size,
and are not computed using recurrence, we set out to investigate the
suitability of the S4 family of models, which are based on state-space layers
and have been shown to outperform transformers, especially in modeling
long-range dependencies. In this work we present two main algorithms: (i) an
off-policy training procedure that works with trajectories, while still
maintaining the training efficiency of the S4 model. (ii) An on-policy training
procedure that is trained in a recurrent manner, benefits from long-range
dependencies, and is based on a novel stable actor-critic mechanism. Our
results indicate that our method outperforms multiple variants of decision
transformers, as well as the other baseline methods on most tasks, while
reducing the latency, number of parameters, and training time by several orders
of magnitude, making our approach more suitable for real-world RL.
- Abstract(参考訳): 近年,この課題にトランスフォーマーを用いた決定変換器に関する基礎研究を含む,非政治強化学習の問題にシーケンス学習手法が適用されている。
トランスフォーマはパラメータ重みがあり、固定されたウィンドウサイズよりも長い歴史の恩恵を受けることができず、再帰的な計算もできないため、特に長距離依存関係のモデリングにおいてトランスフォーマよりも優れる、状態空間層に基づくs4ファミリの適合性について検討した。
この研究では2つの主要なアルゴリズムを紹介します
(i)S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順。
(ii)リカレントな方法で訓練され、長距離依存性の恩恵を受けるオンポリシートレーニング手順は、新規な安定したアクタ-クリティックメカニズムに基づいている。
提案手法は,多くのタスクにおいて,複数種類の決定変換器および他のベースライン手法よりも優れており,遅延,パラメータ数,トレーニング時間を桁違いに削減し,実世界のRLに適した手法であることを示す。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - On the Effectiveness of LayerNorm Tuning for Continual Learning in
Vision Transformers [47.77328392236625]
最新のリハーサルなし連続学習手法は、視覚変換器の特異性を利用してタスク固有のプロンプトを学習する。
そこで、まずタスク固有のパラメータを最適化し、次に推論時間の同じ選択手順で分類器を訓練する。
提案手法は, 計算コストを抑えながら, より優れた結果が得られるか, あるいは, 技術水準に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T15:11:16Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。