論文の概要: StARformer: Transformer with State-Action-Reward Representations
- arxiv url: http://arxiv.org/abs/2110.06206v1
- Date: Tue, 12 Oct 2021 17:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:12:39.250841
- Title: StARformer: Transformer with State-Action-Reward Representations
- Title(参考訳): StARformer: State-Action-Reward表現を備えたTransformer
- Authors: Jinghuan Shang and Michael S. Ryoo
- Abstract要約: 強化学習のためのステート・アクション・リワード変換器(StARformer)を提案する。
StARformerは局所因果関係を明示的にモデル化し、長いシーケンスでのアクション予測を改善する。
実験の結果,StARformer は Atari ベンチマークにおいて最先端の Transformer ベースの手法よりも優れていた。
- 参考スコア(独自算出の注目度): 45.62939275764248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) can be considered as a sequence modeling task,
i.e., given a sequence of past state-action-reward experiences, a model
autoregressively predicts a sequence of future actions. Recently, Transformers
have been successfully adopted to model this problem. In this work, we propose
State-Action-Reward Transformer (StARformer), which explicitly models local
causal relations to help improve action prediction in long sequences.
StARformer first extracts local representations (i.e., StAR-representations)
from each group of state-action-reward tokens within a very short time span. A
sequence of such local representations combined with state representations, is
then used to make action predictions over a long time span. Our experiments
show that StARformer outperforms the state-of-the-art Transformer-based method
on Atari (image) and Gym (state vector) benchmarks, in both offline-RL and
imitation learning settings. StARformer is also more compliant with longer
sequences of inputs compared to the baseline. Our code is available at
https://github.com/elicassion/StARformer.
- Abstract(参考訳): 強化学習(rl)は、過去の状態-アクション-リワードの一連の経験から、将来のアクションのシーケンスを自己回帰的に予測するシーケンスモデリングタスクと見なすことができる。
近年、トランスフォーマーはこの問題のモデル化に成功している。
本研究では, 局所因果関係を明示的にモデル化し, 長いシーケンスにおける動作予測の改善に寄与する State-Action-Reward Transformer (StARformer) を提案する。
StARformerはまず、非常に短い時間で各状態-アクション-リワードトークン群から局所表現(すなわち、StAR-representations)を抽出する。
そのような局所表現と状態表現を組み合わせたシーケンスは、長時間にわたって行動予測を行うために使用される。
実験の結果、StARformerは、オフラインRLと模倣学習設定の両方において、Atari(画像)およびGym(状態ベクトル)ベンチマーク上で最先端のTransformerベースの手法よりも優れていることがわかった。
StARformerはまた、ベースラインよりも長い入力シーケンスに適合している。
私たちのコードはhttps://github.com/elicassion/starformerで利用可能です。
関連論文リスト
- Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。