論文の概要: SERE: Exploring Feature Self-relation for Self-supervised Transformer
- arxiv url: http://arxiv.org/abs/2206.05184v2
- Date: Wed, 23 Aug 2023 01:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 19:19:10.327478
- Title: SERE: Exploring Feature Self-relation for Self-supervised Transformer
- Title(参考訳): SERE: 自己教師型トランスのための機能自己関係を探る
- Authors: Zhong-Yu Li, Shanghua Gao, Ming-Ming Cheng
- Abstract要約: 視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
- 参考スコア(独自算出の注目度): 79.5769147071757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning representations with self-supervision for convolutional networks
(CNN) has been validated to be effective for vision tasks. As an alternative to
CNN, vision transformers (ViT) have strong representation ability with spatial
self-attention and channel-level feedforward networks. Recent works reveal that
self-supervised learning helps unleash the great potential of ViT. Still, most
works follow self-supervised strategies designed for CNN, e.g., instance-level
discrimination of samples, but they ignore the properties of ViT. We observe
that relational modeling on spatial and channel dimensions distinguishes ViT
from other networks. To enforce this property, we explore the feature
SElf-RElation (SERE) for training self-supervised ViT. Specifically, instead of
conducting self-supervised learning solely on feature embeddings from multiple
views, we utilize the feature self-relations, i.e., spatial/channel
self-relations, for self-supervised learning. Self-relation based learning
further enhances the relation modeling ability of ViT, resulting in stronger
representations that stably improve performance on multiple downstream tasks.
Our source code will be made publicly available.
- Abstract(参考訳): 畳み込みネットワーク(CNN)の自己超越による表現の学習が視覚タスクに有効であることが検証された。
CNNの代替として、視覚変換器(ViT)は空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を持つ。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
しかし、ほとんどの研究は、例えばサンプルのインスタンスレベルの識別など、CNN用に設計された自己監督戦略に従っている。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
この特性を強制するために、自己監督型ViTのトレーニングのためのSelf-Relation(SERE)機能について検討する。
具体的には,複数視点からの機能埋め込みのみに基づいて自己教師付き学習を行う代わりに,特徴的自己関係,すなわち空間的/チャネル的自己関係を用いて自己教師付き学習を行う。
自己関係に基づく学習により、ViTの関係モデリング能力が向上し、複数の下流タスクのパフォーマンスが安定的に向上する。
私たちのソースコードは公開されます。
関連論文リスト
- What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Teaching Matters: Investigating the Role of Supervision in Vision
Transformers [32.79398665600664]
視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
論文 参考訳(メタデータ) (2022-12-07T18:59:45Z) - Attention Distillation: self-supervised vision transformer students need
more guidance [37.37272042838411]
自己監督型視覚変換器(ViT-SSKD)の知識蒸留に関する研究
我々は,ImageNet-SubsetとImageNet-1Kの実験において,既存の自己教師型知識蒸留法(SSKD)よりも優れていることを示す。
また、この小さなViT-Tモデルを自己教師あり学習に適用した最初の人物である。
論文 参考訳(メタデータ) (2022-10-03T14:01:46Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Refiner: Refining Self-attention for Vision Transformers [85.80887884154427]
視覚変換器(ViT)は、CNNと比較して画像分類タスクにおいて、競合する精度を示す。
本稿では,ViTの自己注意マップを直接洗練するために,ファインダと呼ばれる概念的にシンプルなスキームを導入する。
refinerはアテンションマップの局所的なパターンを拡大するために畳み込みを適用します。これは、ローカルなアテンション特徴を学習可能なカーネルで局所的に集約した上で、グローバルなアテンションで集約した分散ローカルアテンション特徴と等価であることを示す。
論文 参考訳(メタデータ) (2021-06-07T15:24:54Z) - Emerging Properties in Self-Supervised Vision Transformers [57.36837447500544]
コンボリューションネットワーク (convnets) と比較して際立つ, 自己監督型 ViT が Vision Transformer (ViT) に新たな特性を提供することを示した。
本研究は,ラベルのない自己蒸留の形態として解釈する,DINOと呼ばれる単純な自己監督方式で実施する。
ViT-Baseを用いた線形評価において、ImageNet上で80.1%のトップ-1を達成し、DINOとViTの相乗効果を示す。
論文 参考訳(メタデータ) (2021-04-29T12:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。