論文の概要: QT-TDM: Planning With Transformer Dynamics Model and Autoregressive Q-Learning
- arxiv url: http://arxiv.org/abs/2407.18841v2
- Date: Sat, 16 Nov 2024 13:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:28:36.790824
- Title: QT-TDM: Planning With Transformer Dynamics Model and Autoregressive Q-Learning
- Title(参考訳): QT-TDM: 変圧器ダイナミクスモデルと自己回帰Q-ラーニングによる計画
- Authors: Mostafa Kotb, Cornelius Weber, Muhammad Burhan Hafez, Stefan Wermter,
- Abstract要約: 強化学習(RL)におけるトランスフォーマーの利用について検討する。
分割Q-Transformerモデルを用いて自己回帰離散Q-関数を学習し、短期水平計画以上の長期的なリターンを推定する。
提案手法であるQT-TDMは,動的モデルとしてのトランスフォーマーの頑健な予測機能とモデルフリーQ-トランスフォーマーの有効性を統合し,リアルタイム計画に伴う計算負担を軽減する。
- 参考スコア(独自算出の注目度): 17.914580097058106
- License:
- Abstract: Inspired by the success of the Transformer architecture in natural language processing and computer vision, we investigate the use of Transformers in Reinforcement Learning (RL), specifically in modeling the environment's dynamics using Transformer Dynamics Models (TDMs). We evaluate the capabilities of TDMs for continuous control in real-time planning scenarios with Model Predictive Control (MPC). While Transformers excel in long-horizon prediction, their tokenization mechanism and autoregressive nature lead to costly planning over long horizons, especially as the environment's dimensionality increases. To alleviate this issue, we use a TDM for short-term planning, and learn an autoregressive discrete Q-function using a separate Q-Transformer (QT) model to estimate a long-term return beyond the short-horizon planning. Our proposed method, QT-TDM, integrates the robust predictive capabilities of Transformers as dynamics models with the efficacy of a model-free Q-Transformer to mitigate the computational burden associated with real-time planning. Experiments in diverse state-based continuous control tasks show that QT-TDM is superior in performance and sample efficiency compared to existing Transformer-based RL models while achieving fast and computationally efficient inference.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンにおけるTransformerアーキテクチャの成功に触発され,Reinforcement Learning(RL)におけるTransformerの使用,特にTransformer Dynamics Models(TDM)を用いた環境のダイナミクスのモデリングについて検討した。
モデル予測制御(MPC)を用いたリアルタイム計画シナリオにおける連続制御のためのTDMの性能評価を行った。
トランスフォーマーは長距離予測において優れているが、そのトークン化機構と自己回帰的な性質は、特に環境の次元が増加するにつれて、長い地平線上でのコストのかかる計画に繋がる。
この問題を緩和するために、TDMを用いて短期計画を行い、個別Q-Transformer (QT) モデルを用いて自己回帰離散Q-関数を学習し、短期計画以上の長期的なリターンを推定する。
提案手法であるQT-TDMは,動的モデルとしてのトランスフォーマーの頑健な予測機能とモデルフリーQ-トランスフォーマーの有効性を統合し,リアルタイム計画に伴う計算負担を軽減する。
様々な状態ベース連続制御タスクの実験により、QT-TDMは、高速で計算効率のよい推論を達成しつつ、既存のTransformerベースのRLモデルと比較して、性能とサンプル効率に優れていることが示された。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - Differential Evolution Algorithm based Hyper-Parameters Selection of
Transformer Neural Network Model for Load Forecasting [0.0]
トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。
我々の研究は,平均二乗誤差 (MSE) や平均絶対パーセンテージ誤差 (MAPE) といった数値に基づく負荷予測において,異なるメタヒューリスティックアルゴリズムと統合されたトランスフォーマーベースニューラルネットワークモデルを比較した。
論文 参考訳(メタデータ) (2023-07-28T04:29:53Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Continuous Spatiotemporal Transformers [2.485182034310304]
連続時間変換器(Continuous Stemporal Transformer, CST)は, 連続系をモデル化するためのトランスフォーマアーキテクチャである。
この新しいフレームワークは、ソボレフ空間における最適化による連続的な表現と出力を保証する。
我々は従来の変圧器や他のスムーズな時相力学モデリング手法に対してCSTをベンチマークし、合成および実システムにおける多くのタスクにおいて優れた性能を達成する。
論文 参考訳(メタデータ) (2023-01-31T00:06:56Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - How Crucial is Transformer in Decision Transformer? [29.228813063916206]
決定変換器(Decision Transformer, DT)は、最近提案された強化学習のためのアーキテクチャである。
連続制御タスクにおける完全なDTアーキテクチャにおけるTransformerモデルの重要性を分析する。
論文 参考訳(メタデータ) (2022-11-26T20:13:22Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。