論文の概要: Exploring Feature Self-relation for Self-supervised Transformer
- arxiv url: http://arxiv.org/abs/2206.05184v1
- Date: Fri, 10 Jun 2022 15:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:06:30.417127
- Title: Exploring Feature Self-relation for Self-supervised Transformer
- Title(参考訳): 自己教師型変圧器の機能自己相関の探索
- Authors: Zhong-Yu Li, Shanghua Gao, Ming-Ming Cheng
- Abstract要約: ビジョントランス(ViT)は、画素レベルの自己アテンションとチャネルレベルのフィードフォワードネットワークで強力な表現能力を持つ。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
画素とチャネル間のモデリング関係は、他のネットワークとViTを区別する。
- 参考スコア(独自算出の注目度): 98.0187775433515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning representations with self-supervision for convolutional networks
(CNN) has proven effective for vision tasks. As an alternative for CNN, vision
transformers (ViTs) emerge strong representation ability with the pixel-level
self-attention and channel-level feed-forward networks. Recent works reveal
that self-supervised learning helps unleash the great potential of ViTs. Still,
most works follow self-supervised strategy designed for CNNs, e.g.,
instance-level discrimination of samples, but they ignore the unique properties
of ViTs. We observe that modeling relations among pixels and channels
distinguishes ViTs from other networks. To enforce this property, we explore
the feature self-relations for training self-supervised ViTs. Specifically,
instead of conducting self-supervised learning solely on feature embeddings
from multiple views, we utilize the feature self-relations, i.e.,
pixel/channel-level self-relations, for self-supervised learning. Self-relation
based learning further enhance the relation modeling ability of ViTs, resulting
in strong representations that stably improve performance on multiple
downstream tasks. Our source code will be made publicly available.
- Abstract(参考訳): 畳み込みネットワーク(CNN)の自己超越による表現の学習は視覚タスクに有効であることが証明された。
CNNの代替として、ビジョントランスフォーマー(ViT)は、ピクセルレベルの自己アテンションとチャネルレベルのフィードフォワードネットワークで強力な表現能力を持つ。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
それでもほとんどの研究は、サンプルのインスタンスレベルの識別など、CNN用に設計された自己監督戦略に従っている。
画素とチャネル間のモデリング関係は、他のネットワークとViTを区別する。
この特性を強制するために、自己監督型ViTを訓練するための機能自己関係について検討する。
具体的には,複数視点からの特徴埋め込みのみに焦点をあてた自己教師型学習を行う代わりに,特徴自己関係,すなわち画素/チャネルレベルの自己関係を自己教師型学習に活用する。
自己関係に基づく学習は、ViTの関係モデリング能力をさらに強化し、複数の下流タスクのパフォーマンスを安定的に向上させる強力な表現をもたらす。
私たちのソースコードは公開されます。
関連論文リスト
- What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - Attention Distillation: self-supervised vision transformer students need
more guidance [37.37272042838411]
自己監督型視覚変換器(ViT-SSKD)の知識蒸留に関する研究
我々は,ImageNet-SubsetとImageNet-1Kの実験において,既存の自己教師型知識蒸留法(SSKD)よりも優れていることを示す。
また、この小さなViT-Tモデルを自己教師あり学習に適用した最初の人物である。
論文 参考訳(メタデータ) (2022-10-03T14:01:46Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Refiner: Refining Self-attention for Vision Transformers [85.80887884154427]
視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
論文 参考訳(メタデータ) (2021-06-07T15:24:54Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。