論文の概要: What do Vision Transformers Learn? A Visual Exploration
- arxiv url: http://arxiv.org/abs/2212.06727v1
- Date: Tue, 13 Dec 2022 16:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 15:06:15.507806
- Title: What do Vision Transformers Learn? A Visual Exploration
- Title(参考訳): ビジョントランスフォーマーは何を学べるか?
視覚的な探究
- Authors: Amin Ghiasi, Hamid Kazemi, Eitan Borgnia, Steven Reich, Manli Shu,
Micah Goldblum, Andrew Gordon Wilson, Tom Goldstein
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
- 参考スコア(独自算出の注目度): 68.50771218442776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViTs) are quickly becoming the de-facto architecture for
computer vision, yet we understand very little about why they work and what
they learn. While existing studies visually analyze the mechanisms of
convolutional neural networks, an analogous exploration of ViTs remains
challenging. In this paper, we first address the obstacles to performing
visualizations on ViTs. Assisted by these solutions, we observe that neurons in
ViTs trained with language model supervision (e.g., CLIP) are activated by
semantic concepts rather than visual features. We also explore the underlying
differences between ViTs and CNNs, and we find that transformers detect image
background features, just like their convolutional counterparts, but their
predictions depend far less on high-frequency information. On the other hand,
both architecture types behave similarly in the way features progress from
abstract patterns in early layers to concrete objects in late layers. In
addition, we show that ViTs maintain spatial information in all layers except
the final layer. In contrast to previous works, we show that the last layer
most likely discards the spatial information and behaves as a learned global
pooling operation. Finally, we conduct large-scale visualizations on a wide
range of ViT variants, including DeiT, CoaT, ConViT, PiT, Swin, and Twin, to
validate the effectiveness of our method.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、急速にコンピュータビジョンのデファクトアーキテクチャになりつつあるが、その理由と学習内容についてはほとんど理解していない。
既存の研究は畳み込みニューラルネットワークのメカニズムを視覚的に分析しているが、vitsの類似の探索は依然として困難である。
本稿では、まず、ViT上で可視化を行う際の障害に対処する。
これらのソリューションによって、言語モデル監視(例えば、CLIP)で訓練されたViTのニューロンは、視覚的特徴よりも意味論的概念によって活性化される。
また,vitsとcnnの違いについても検討し,トランスフォーマは畳み込み画像と同様に背景特徴を検出するが,その予測は高周波情報に依存しないことがわかった。
一方、両方のアーキテクチャタイプは、初期レイヤの抽象パターンから後期レイヤの具体的なオブジェクトまで、機能の進行の仕方で同じように振る舞う。
さらに, 最終層を除くすべての層において, ViT が空間情報を保持していることを示す。
従来の研究とは対照的に,最終層は空間情報を破棄し,学習したグローバルプール操作として振る舞う可能性が最も高い。
最後に、DeiT、CoaT、ConViT、PiT、Swin、Twinを含む広範囲なViT変種に対して大規模な可視化を行い、本手法の有効性を検証する。
関連論文リスト
- Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - Vision Transformer Visualization: What Neurons Tell and How Neurons
Behave? [33.87454837848252]
視覚変換器(ViTs)をまたいだ視覚情報や特徴埋め込みの公開を支援する効果的な可視化手法を提案する。
提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目して,ViTの計算過程から逸脱する。
次に、レイヤ間を効果的に可視化する厳密なフレームワークを開発し、ViTsフィルタの効果を明らかにし、オブジェクトパッチに対するグループ化/クラスタリングの挙動を明らかにする。
論文 参考訳(メタデータ) (2022-10-14T08:56:24Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。