論文の概要: Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels
- arxiv url: http://arxiv.org/abs/2204.04905v1
- Date: Mon, 11 Apr 2022 07:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:58:04.366290
- Title: Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels
- Title(参考訳): 画素からの深部強化学習のための視覚トランスフォーマー法の評価
- Authors: Tianxin Tao, Daniele Reda, Michiel van de Panne
- Abstract要約: 画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 7.426118390008397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViT) have recently demonstrated the significant
potential of transformer architectures for computer vision. To what extent can
image-based deep reinforcement learning also benefit from ViT architectures, as
compared to standard convolutional neural network (CNN) architectures? To
answer this question, we evaluate ViT training methods for image-based
reinforcement learning (RL) control tasks and compare these results to a
leading convolutional-network architecture method, RAD. For training the ViT
encoder, we consider several recently-proposed self-supervised losses that are
treated as auxiliary tasks, as well as a baseline with no additional loss
terms. We find that the CNN architectures trained using RAD still generally
provide superior performance. For the ViT methods, all three types of auxiliary
tasks that we consider provide a benefit over plain ViT training. Furthermore,
ViT masking-based tasks are found to significantly outperform ViT
contrastive-learning.
- Abstract(参考訳): vision transformers (vit) はコンピュータビジョンにおけるトランスフォーマーアーキテクチャの重要な可能性を実証している。
イメージベースのディープ強化学習は、標準畳み込みニューラルネットワーク(CNN)アーキテクチャと比較して、ViTアーキテクチャのメリットもどの程度あるのか?
この質問に答えるために,画像ベース強化学習(rl)制御タスクのためのvitトレーニング手法を評価し,これらの結果を先行畳み込みネットワークアーキテクチャ法radと比較する。
vitエンコーダのトレーニングには,最近発表された補助タスクとして扱われる自己教師付き損失と,追加の損失項を持たないベースラインについて検討する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
ViT法では,3種類の補助的タスクが,平易なViTトレーニングよりも有益であると考えられる。
さらに、ViTマスキングに基づくタスクは、ViTのコントラスト学習を大きく上回っている。
関連論文リスト
- T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers [9.284740716447342]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。
提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文 参考訳(メタデータ) (2024-03-07T14:25:03Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - ViTGAN: Training GANs with Vision Transformers [46.769407314698434]
視覚変換器(ViT)は、視覚固有の誘導バイアスを少なくしながら、画像認識に競争力を発揮している。
ViTを用いたGANのトレーニングのための新しい正規化手法をいくつか紹介する。
我々のアプローチはViTGANと呼ばれ、3つのデータセット上の主要なCNNベースのGANモデルに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2021-07-09T17:59:30Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。