論文の概要: Transformer in Transformer as Backbone for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.14538v2
- Date: Tue, 3 Jan 2023 06:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 11:45:26.000656
- Title: Transformer in Transformer as Backbone for Deep Reinforcement Learning
- Title(参考訳): 深層補強学習のバックボーンとしての変圧器
- Authors: Hangyu Mao, Rui Zhao, Hao Chen, Jianye Hao, Yiqun Chen, Dong Li, Junge
Zhang, Zhen Xiao
- Abstract要約: 本稿では,深部RLのためのエンフレアトランスフォーマーネットワークの設計を提案する。
Transformer in Transformer (TIT) バックボーンが提案されている。
実験により、TITは異なる設定で一貫して満足なパフォーマンスを達成できることが示された。
- 参考スコア(独自算出の注目度): 43.354375917223656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing better deep networks and better reinforcement learning (RL)
algorithms are both important for deep RL. This work focuses on the former.
Previous methods build the network with several modules like CNN, LSTM and
Attention. Recent methods combine the Transformer with these modules for better
performance. However, it requires tedious optimization skills to train a
network composed of mixed modules, making these methods inconvenient to be used
in practice. In this paper, we propose to design \emph{pure Transformer-based
networks} for deep RL, aiming at providing off-the-shelf backbones for both the
online and offline settings. Specifically, the Transformer in Transformer (TIT)
backbone is proposed, which cascades two Transformers in a very natural way:
the inner one is used to process a single observation, while the outer one is
responsible for processing the observation history; combining both is expected
to extract spatial-temporal representations for good decision-making.
Experiments show that TIT can achieve satisfactory performance in different
settings consistently.
- Abstract(参考訳): ディープ・ネットワークと強化学習(RL)アルゴリズムの設計はどちらもディープ・RLにとって重要である。
この作品は前者に焦点を当てている。
以前の手法では、cnn、lstm、 attentionなどのモジュールでネットワークを構築する。
最近の手法では、Transformerとこれらのモジュールを組み合わせてパフォーマンスを改善している。
しかし、混合モジュールで構成されるネットワークをトレーニングするためには、面倒な最適化スキルが必要であるため、実際に使用するのが不便である。
本稿では,オンラインとオフラインの両方の設定に対して,既製のバックボーンを提供することを目的とした,deep rl用の \emph{pure transformer-based networks}の設計を提案する。
具体的には, 2つのトランスを非常に自然な方法でカスケードするトランスフォーマイントランス(tit)バックボーンを提案する。インナーは1つの観測を処理し,アウターは観測履歴を処理する。
実験により、TITは異なる設定で一貫して満足なパフォーマンスを達成できることが示された。
関連論文リスト
- Heterogeneous Federated Learning with Splited Language Model [22.65325348176366]
フェデレート・スプリット・ラーニング(FSL)は、実際には有望な分散学習パラダイムである。
本稿では,前訓練画像変換器(PIT)をFedVと呼ばれる初期モデルとして利用し,トレーニングプロセスの高速化とモデルロバスト性の向上を図る。
我々は、実世界のデータセット、異なる部分的デバイス参加、異種データ分割におけるPITを用いたFSL手法の体系的評価を初めて行った。
論文 参考訳(メタデータ) (2024-03-24T07:33:08Z) - PDiT: Interleaving Perception and Decision-making Transformers for Deep
Reinforcement Learning [27.128220336919195]
パーセプション・デシジョン・メイキング・インターリーブ・トランス(PDiT)ネットワークを提案する。
実験の結果,PDiTは強いベースラインよりも優れた性能を発揮するだけでなく,抽出可能な特徴表現も達成できることがわかった。
論文 参考訳(メタデータ) (2023-12-26T03:07:10Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - TransReID: Transformer-based Object Re-Identification [20.02035310635418]
Vision Transformer (ViT) は、オブジェクト再識別(ReID)タスクのための純粋なトランスフォーマーベースのモデルである。
いくつかの適応により、強いベースラインのViT-BoTは、ViTをバックボーンとして構成される。
本稿では、TransReIDと呼ばれる純粋なトランスフォーマーフレームワークを提案し、これはReID研究に純粋なトランスフォーマーを用いた最初の研究である。
論文 参考訳(メタデータ) (2021-02-08T17:33:59Z) - Stabilizing Transformer-Based Action Sequence Generation For Q-Learning [5.707122938235432]
目標は、トランスフォーマーベースのDeep Q-Learningメソッドで、複数の環境で安定している。
提案手法は,制御環境における古典的Q-ラーニングの性能と,選択したAtariベンチマークのポテンシャルとを一致させることができる。
論文 参考訳(メタデータ) (2020-10-23T22:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。