論文の概要: Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels
- arxiv url: http://arxiv.org/abs/2204.04905v1
- Date: Mon, 11 Apr 2022 07:10:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 15:58:04.366290
- Title: Evaluating Vision Transformer Methods for Deep Reinforcement Learning
from Pixels
- Title(参考訳): 画素からの深部強化学習のための視覚トランスフォーマー法の評価
- Authors: Tianxin Tao, Daniele Reda, Michiel van de Panne
- Abstract要約: 画像に基づく強化学習制御タスクに対する視覚変換器(ViT)訓練手法の評価を行った。
これらの結果を,主要な畳み込みネットワークアーキテクチャ手法であるRADと比較する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 7.426118390008397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViT) have recently demonstrated the significant
potential of transformer architectures for computer vision. To what extent can
image-based deep reinforcement learning also benefit from ViT architectures, as
compared to standard convolutional neural network (CNN) architectures? To
answer this question, we evaluate ViT training methods for image-based
reinforcement learning (RL) control tasks and compare these results to a
leading convolutional-network architecture method, RAD. For training the ViT
encoder, we consider several recently-proposed self-supervised losses that are
treated as auxiliary tasks, as well as a baseline with no additional loss
terms. We find that the CNN architectures trained using RAD still generally
provide superior performance. For the ViT methods, all three types of auxiliary
tasks that we consider provide a benefit over plain ViT training. Furthermore,
ViT masking-based tasks are found to significantly outperform ViT
contrastive-learning.
- Abstract(参考訳): vision transformers (vit) はコンピュータビジョンにおけるトランスフォーマーアーキテクチャの重要な可能性を実証している。
イメージベースのディープ強化学習は、標準畳み込みニューラルネットワーク(CNN)アーキテクチャと比較して、ViTアーキテクチャのメリットもどの程度あるのか?
この質問に答えるために,画像ベース強化学習(rl)制御タスクのためのvitトレーニング手法を評価し,これらの結果を先行畳み込みネットワークアーキテクチャ法radと比較する。
vitエンコーダのトレーニングには,最近発表された補助タスクとして扱われる自己教師付き損失と,追加の損失項を持たないベースラインについて検討する。
RADを用いてトレーニングされたCNNアーキテクチャは、一般的には優れたパフォーマンスを提供する。
ViT法では,3種類の補助的タスクが,平易なViTトレーニングよりも有益であると考えられる。
さらに、ViTマスキングに基づくタスクは、ViTのコントラスト学習を大きく上回っている。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis [38.074487843137064]
本稿では,教師付き事前学習型視覚変換器(ViTs)と従来のニューラルネットワーク(ConvNets)とを比較し,顔深度画像やビデオの検出に有効であることを示す。
これは、特に限られたトレーニングデータを用いて、一般化と説明可能性を改善する可能性について検討する。
SSL ViTsを利用して、平易なデータによるディープフェイク検出と部分的な微調整を行い、注意機構を介してディープフェイク検出と説明可能性に匹敵する適応性を見出す。
論文 参考訳(メタデータ) (2024-05-01T07:16:49Z) - T-TAME: Trainable Attention Mechanism for Explaining Convolutional
Networks and Vision Transformers [9.284740716447342]
ニューラルネットワークの"ブラックボックス"の性質は、説明責任が不可欠であるアプリケーションにおいて、採用の障壁となる。
本稿では,T-TAME(Transformer- compatible Trainable Attention Mechanism for Explanations)を提案する。
提案されたアーキテクチャとトレーニング技術は、どんな畳み込みやビジョントランスフォーマーのようなニューラルネットワークにも容易に適用できる。
論文 参考訳(メタデータ) (2024-03-07T14:25:03Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。