論文の概要: Teaching Matters: Investigating the Role of Supervision in Vision
Transformers
- arxiv url: http://arxiv.org/abs/2212.03862v1
- Date: Wed, 7 Dec 2022 18:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:32:55.519273
- Title: Teaching Matters: Investigating the Role of Supervision in Vision
Transformers
- Title(参考訳): 教示事項:視覚トランスフォーマーにおける監督の役割の検討
- Authors: Matthew Walmer, Saksham Suri, Kamal Gupta, Abhinav Shrivastava
- Abstract要約: 視覚変換器(ViT)は,その注意,表現,下流のパフォーマンスの観点から,多様な動作を学習する。
また,オフセット・ローカル・アテンション・ヘッドの出現など,監督の面から一貫したViT行動も発見する。
我々の分析では、ViTは高度に柔軟であり、訓練方法に応じて、異なる順序で局所的およびグローバルな情報を処理できることが示されている。
- 参考スコア(独自算出の注目度): 32.79398665600664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have gained significant popularity in recent years
and have proliferated into many applications. However, it is not well explored
how varied their behavior is under different learning paradigms. We compare
ViTs trained through different methods of supervision, and show that they learn
a diverse range of behaviors in terms of their attention, representations, and
downstream performance. We also discover ViT behaviors that are consistent
across supervision, including the emergence of Offset Local Attention Heads.
These are self-attention heads that attend to a token adjacent to the current
token with a fixed directional offset, a phenomenon that to the best of our
knowledge has not been highlighted in any prior work. Our analysis shows that
ViTs are highly flexible and learn to process local and global information in
different orders depending on their training method. We find that contrastive
self-supervised methods learn features that are competitive with explicitly
supervised features, and they can even be superior for part-level tasks. We
also find that the representations of reconstruction-based models show
non-trivial similarity to contrastive self-supervised models. Finally, we show
how the "best" layer for a given task varies by both supervision method and
task, further demonstrating the differing order of information processing in
ViTs.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は近年大きな人気を集め、多くのアプリケーションに普及している。
しかし、異なる学習パラダイムの下での行動の多様性については、十分に検討されていない。
我々は、異なる監督方法によって訓練されたViTを比較し、彼らの注意、表現、下流のパフォーマンスの観点から様々な行動を学ぶことを示す。
また、オフセットローカルアテンションヘッドの出現など、監督の面で一貫性のあるViT動作も発見する。
これらは、現在のトークンに隣接するトークンに固定された方向オフセットで出席するセルフアテンションヘッドである。
分析の結果,vitは高度に柔軟であり,訓練方法によって異なる順序で局所的およびグローバル的な情報を処理できることがわかった。
対照的な自己監督手法は、明示的な教師付き機能と競合する特徴を学習し、パートレベルのタスクに勝るものさえある。
また、再構成に基づくモデルの表現は、対照的な自己教師付きモデルと非自明な類似性を示す。
最後に、与えられたタスクの「ベスト」層が、監督方法とタスクによってどのように異なるかを示し、さらに、ViTにおける情報処理の順番が異なることを示す。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - Uncovering the Hidden Dynamics of Video Self-supervised Learning under
Distribution Shifts [39.080610060557476]
本研究では, 自然分布変化に対応した6種類の自己監督手法(v-SimCLR, v-MoCo, v-BYOL, v-SimSiam, v-DINO, v-MAE)の挙動について検討した。
本研究は,VSSL手法の興味深い発見と興味深い挙動を明らかにするものである。
論文 参考訳(メタデータ) (2023-06-03T06:10:20Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - An Empirical Study of Training Self-Supervised Visual Transformers [70.27107708555185]
自己監視型視覚トランスフォーマーの訓練におけるいくつかの基本成分の影響について検討する。
これらの結果は確かに部分的な失敗であり、トレーニングをより安定させると改善できる。
論文 参考訳(メタデータ) (2021-04-05T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。