論文の概要: Deep Reinforcement Learning with Swin Transformer
- arxiv url: http://arxiv.org/abs/2206.15269v1
- Date: Thu, 30 Jun 2022 13:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 14:38:07.402708
- Title: Deep Reinforcement Learning with Swin Transformer
- Title(参考訳): Swin Transformer を用いた深層強化学習
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad
- Abstract要約: トランスフォーマー(transformer)は、複数の自己注意ヘッド層を利用するニューラルネットワークモデルである。
トランスフォーマーは自然言語処理タスクに優れたパフォーマンスを示した。
オンライン強化学習は、空間トークン埋め込みによる自己注意の活用の恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 10.299850596045395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are neural network models that utilize multiple layers of
self-attention heads. Attention is implemented in transformers as the
contextual embeddings of the 'key' and 'query'. Transformers allow the
re-combination of attention information from different layers and the
processing of all inputs at once, which are more convenient than recurrent
neural networks when dealt with a large number of data. Transformers have
exhibited great performances on natural language processing tasks in recent
years. Meanwhile, there have been tremendous efforts to adapt transformers into
other fields of machine learning, such as Swin Transformer and Decision
Transformer. Swin Transformer is a promising neural network architecture that
splits image pixels into small patches and applies local self-attention
operations inside the (shifted) windows of fixed sizes. Decision Transformer
has successfully applied transformers to off-line reinforcement learning and
showed that random-walk samples from Atari games are sufficient to let an agent
learn optimized behaviors. However, it is considerably more challenging to
combine online reinforcement learning with transformers. In this article, we
further explore the possibility of not modifying the reinforcement learning
policy, but only replacing the convolutional neural network architecture with
the self-attention architecture from Swin Transformer. Namely, we target at
changing how an agent views the world, but not how an agent plans about the
world. We conduct our experiment on 49 games in Arcade Learning Environment.
The results show that using Swin Transformer in reinforcement learning achieves
significantly higher evaluation scores across the majority of games in Arcade
Learning Environment. Thus, we conclude that online reinforcement learning can
benefit from exploiting self-attentions with spatial token embeddings.
- Abstract(参考訳): トランスフォーマー(transformers)は、複数のセルフアテンションヘッドを使用するニューラルネットワークモデルである。
注意は変換器で'key' と 'query' のコンテキスト埋め込みとして実装される。
トランスフォーマーは、異なるレイヤからの注意情報の再結合と、一度にすべての入力の処理を可能にし、大量のデータを扱う場合のリカレントニューラルネットワークよりも便利である。
近年、トランスフォーマーは自然言語処理タスクに優れたパフォーマンスを発揮している。
一方、swin transformerや decision transformerといった機械学習の他の分野にも、トランスフォーマーを適用するという大きな努力があった。
Swin Transformerは、画像ピクセルを小さなパッチに分割し、固定サイズの(シフトした)ウィンドウ内でローカルな自己注意操作を適用する、有望なニューラルネットワークアーキテクチャである。
決定変換器は、オフライン強化学習にトランスフォーマーをうまく応用し、エージェントが最適化された動作を学習するのにアタリゲームからのランダムウォークサンプルが十分であることを示した。
しかし、オンライン強化学習とトランスフォーマーを組み合わせることは、かなり難しい。
本稿では、強化学習ポリシーを変更するのではなく、畳み込みニューラルネットワークアーキテクチャをSwin Transformerの自己注意アーキテクチャに置き換える可能性をさらに検討する。
つまり、エージェントが世界をどう見ているかを変えることを目標としていますが、エージェントが世界をどう考えているかではありません。
アーケード学習環境における49試合の実験を行った。
その結果, 強化学習におけるSwin Transformerの使用は, アーケード学習環境におけるゲームの大部分において, 評価スコアが有意に向上することがわかった。
そこで,オンライン強化学習は,空間トークン埋め込みによる自己意識の活用の恩恵を受けることができると結論付けた。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Searching Intrinsic Dimensions of Vision Transformers [6.004704152622424]
我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
論文 参考訳(メタデータ) (2022-04-16T05:16:35Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。