論文の概要: Deep Reinforcement Learning with Swin Transformers
- arxiv url: http://arxiv.org/abs/2206.15269v2
- Date: Mon, 5 Jun 2023 13:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:02:12.782728
- Title: Deep Reinforcement Learning with Swin Transformers
- Title(参考訳): swinトランスフォーマによる深部強化学習
- Authors: Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad
- Abstract要約: 本稿では,Swin Transformers: Swin DQNに基づくオンライン強化学習スキームについて紹介する。
Swin Transformersは、画像ピクセルのグループを小さなパッチに分割することで、ニューラルネットワークのバックボーンとして期待されている。
アーケード学習環境における49のゲーム実験において,優れた性能を示す。
- 参考スコア(独自算出の注目度): 10.299850596045395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are neural network models that utilize multiple layers of
self-attention heads and have exhibited enormous potential in natural language
processing tasks. Meanwhile, there have been efforts to adapt transformers to
visual tasks of machine learning, including Vision Transformers and Swin
Transformers. Although some researchers use Vision Transformers for
reinforcement learning tasks, their experiments remain at a small scale due to
the high computational cost. Experiments conducted at a large scale, on the
other hand, have to rely on techniques to cut the costs of Vision Transformers,
which also yield inferior results.
To address this challenge, this article presents the first online
reinforcement learning scheme that is based on Swin Transformers: Swin DQN.
Swin Transformers are promising as a backbone in neural networks by splitting
groups of image pixels into small patches and applying local self-attention
operations inside the (shifted) windows of fixed sizes. They have demonstrated
state-of-the-art performances in benchmarks. In contrast to existing research,
our novel approach is reducing the computational costs, as well as
significantly improving the performance. We demonstrate the superior
performance with experiments on 49 games in the Arcade Learning Environment.
The results show that our approach, using Swin Transformers with Double DQN,
achieves significantly higher maximal evaluation scores than the baseline
method in 45 of all the 49 games ~92%, and higher mean evaluation scores than
the baseline method in 40 of all the 49 games ~82%.
- Abstract(参考訳): トランスフォーマー(Transformer)は,複数レイヤの自己認識ヘッドを利用するニューラルネットワークモデルであり,自然言語処理タスクにおいて大きな可能性を秘めている。
一方、Vision TransformersやSwin Transformersなど、機械学習の視覚タスクにトランスフォーマーを適用する取り組みも行われている。
一部の研究者は強化学習タスクにVision Transformerを使用しているが、高い計算コストのために実験は小規模のままである。
一方、大規模な実験では、視覚トランスフォーマーのコストを削減する技術に頼らざるを得ず、その結果は劣る。
この課題に対処するために,本稿では,Swin Transformers: Swin DQNをベースとしたオンライン強化学習スキームについて紹介する。
Swin Transformersは、画像ピクセルのグループを小さなパッチに分割し、固定サイズの(シフトした)ウィンドウ内でローカルな自己注意操作を適用することで、ニューラルネットワークのバックボーンとして期待されている。
彼らはベンチマークで最先端のパフォーマンスを実証した。
既存の研究とは対照的に、我々の新しいアプローチは計算コストを削減し、性能を大幅に向上させる。
アーケード学習環境における49のゲーム実験において,優れた性能を示す。
その結果、ダブルdqnのswinトランスフォーマを用いて、49ゲーム中45ゲーム中92%、平均評価スコアが49ゲーム中40ゲーム中82%において、ベースライン法より有意に高い最大評価スコアが得られることがわかった。
関連論文リスト
- Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Searching Intrinsic Dimensions of Vision Transformers [6.004704152622424]
我々は,物体検出などの複雑な視覚タスクに対して,視覚変換器のバックボーンを刈り取る方法であるSiDTを提案する。
CIFAR-100とCOCOデータセットの実験は、刈り取られた20%または40%の次元/パラメータを持つバックボーンが、未刈取モデルと同じような、あるいはそれ以上のパフォーマンスを持つことを示した。
論文 参考訳(メタデータ) (2022-04-16T05:16:35Z) - ViT-P: Rethinking Data-efficient Vision Transformers from Locality [9.515925867530262]
我々は多焦点アテンションバイアスを導入することにより、畳み込みニューラルネットワークのようなデータ効率を向上する。
十分に訓練されたViTの注意距離にインスパイアされ、我々はViTの自己注意をマルチスケールの局所受容野に制限する。
Cifar100では、私たちのViT-P Baseモデルは、ゼロからトレーニングされた最先端の精度(83.16%)を達成する。
論文 参考訳(メタデータ) (2022-03-04T14:49:48Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - MViT: Mask Vision Transformer for Facial Expression Recognition in the
wild [77.44854719772702]
野生における表情認識(FER)はコンピュータビジョンにおいて極めて困難な課題である。
本研究ではまず,野生におけるFERのためのマスク・ビジョン・トランス (MViT) を提案する。
我々のMViTはRAF-DBの最先端手法を88.62%、FERPlusを89.22%、AffectNet-7を64.57%で上回り、61.40%でAffectNet-8と同等の結果を得る。
論文 参考訳(メタデータ) (2021-06-08T16:58:10Z) - Token Labeling: Training a 85.4% Top-1 Accuracy Vision Transformer with
56M Parameters on ImageNet [86.95679590801494]
ImageNet分類におけるビジョントランスフォーマーの可能性を探るため、トレーニングテクニックのバッグを開発しています。
視覚変換器の構造を微調整し,トークンラベリングを導入することで,我々のモデルはCNNよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-22T04:43:06Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。