論文の概要: How Crucial is Transformer in Decision Transformer?
- arxiv url: http://arxiv.org/abs/2211.14655v1
- Date: Sat, 26 Nov 2022 20:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 20:25:31.121847
- Title: How Crucial is Transformer in Decision Transformer?
- Title(参考訳): 意思決定トランスフォーマーにおけるトランスフォーマーの重要性
- Authors: Max Siebenborn, Boris Belousov, Junning Huang, Jan Peters
- Abstract要約: 決定変換器(Decision Transformer, DT)は、最近提案された強化学習のためのアーキテクチャである。
連続制御タスクにおける完全なDTアーキテクチャにおけるTransformerモデルの重要性を分析する。
- 参考スコア(独自算出の注目度): 29.228813063916206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision Transformer (DT) is a recently proposed architecture for
Reinforcement Learning that frames the decision-making process as an
auto-regressive sequence modeling problem and uses a Transformer model to
predict the next action in a sequence of states, actions, and rewards. In this
paper, we analyze how crucial the Transformer model is in the complete DT
architecture on continuous control tasks. Namely, we replace the Transformer by
an LSTM model while keeping the other parts unchanged to obtain what we call a
Decision LSTM model. We compare it to DT on continuous control tasks, including
pendulum swing-up and stabilization, in simulation and on physical hardware.
Our experiments show that DT struggles with continuous control problems, such
as inverted pendulum and Furuta pendulum stabilization. On the other hand, the
proposed Decision LSTM is able to achieve expert-level performance on these
tasks, in addition to learning a swing-up controller on the real system. These
results suggest that the strength of the Decision Transformer for continuous
control tasks may lie in the overall sequential modeling architecture and not
in the Transformer per se.
- Abstract(参考訳): decision transformer(dt)は、最近提案された強化学習のためのアーキテクチャで、意思決定プロセスを自己回帰シーケンスモデリング問題として構成し、transformerモデルを使用して、状態、アクション、報酬のシーケンスにおける次のアクションを予測する。
本稿では,連続制御タスクにおける完全なDTアーキテクチャにおいて,Transformerモデルがいかに重要かを分析する。
すなわち、トランスフォーマーをLSTMモデルに置き換え、他のパーツをそのまま保持して、決定LSTMモデルと呼ぶものを得る。
シミュレーションや物理ハードウェアにおいて、振り子揺らぎや安定化を含む連続制御タスクのDTと比較する。
実験の結果,dtは倒立振子や古田振子安定化などの連続制御問題に苦しむことがわかった。
一方,提案するDecision LSTMは,実システム上でのスイングアップコントローラの学習に加えて,これらのタスクにおけるエキスパートレベルのパフォーマンスを実現することができる。
これらの結果から, 連続制御タスクにおける決定変換器の強みは, 全体的な逐次モデリングアーキテクチャに起因している可能性が示唆された。
関連論文リスト
- QT-TDM: Planning With Transformer Dynamics Model and Autoregressive Q-Learning [17.914580097058106]
強化学習(RL)におけるトランスフォーマーの利用について検討する。
分割Q-Transformerモデルを用いて自己回帰離散Q-関数を学習し、短期水平計画以上の長期的なリターンを推定する。
提案手法であるQT-TDMは,動的モデルとしてのトランスフォーマーの頑健な予測機能とモデルフリーQ-トランスフォーマーの有効性を統合し,リアルタイム計画に伴う計算負担を軽減する。
論文 参考訳(メタデータ) (2024-07-26T16:05:26Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Continuous Spatiotemporal Transformers [2.485182034310304]
連続時間変換器(Continuous Stemporal Transformer, CST)は, 連続系をモデル化するためのトランスフォーマアーキテクチャである。
この新しいフレームワークは、ソボレフ空間における最適化による連続的な表現と出力を保証する。
我々は従来の変圧器や他のスムーズな時相力学モデリング手法に対してCSTをベンチマークし、合成および実システムにおける多くのタスクにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2023-01-31T00:06:56Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。