論文の概要: Vision Transformer Visualization: What Neurons Tell and How Neurons
Behave?
- arxiv url: http://arxiv.org/abs/2210.07646v1
- Date: Fri, 14 Oct 2022 08:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:40:24.980942
- Title: Vision Transformer Visualization: What Neurons Tell and How Neurons
Behave?
- Title(参考訳): 視覚変換器の可視化:ニューロンが何を伝え、どのようにニューロンが働くか
- Authors: Van-Anh Nguyen, Khanh Pham Dinh, Long Tung Vuong, Thanh-Toan Do, Quan
Hung Tran, Dinh Phung, Trung Le
- Abstract要約: 視覚変換器(ViTs)をまたいだ視覚情報や特徴埋め込みの公開を支援する効果的な可視化手法を提案する。
提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目して,ViTの計算過程から逸脱する。
次に、レイヤ間を効果的に可視化する厳密なフレームワークを開発し、ViTsフィルタの効果を明らかにし、オブジェクトパッチに対するグループ化/クラスタリングの挙動を明らかにする。
- 参考スコア(独自算出の注目度): 33.87454837848252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently vision transformers (ViT) have been applied successfully for various
tasks in computer vision. However, important questions such as why they work or
how they behave still remain largely unknown. In this paper, we propose an
effective visualization technique, to assist us in exposing the information
carried in neurons and feature embeddings across the ViT's layers. Our approach
departs from the computational process of ViTs with a focus on visualizing the
local and global information in input images and the latent feature embeddings
at multiple levels. Visualizations at the input and embeddings at level 0
reveal interesting findings such as providing support as to why ViTs are rather
generally robust to image occlusions and patch shuffling; or unlike CNNs, level
0 embeddings already carry rich semantic details. Next, we develop a rigorous
framework to perform effective visualizations across layers, exposing the
effects of ViTs filters and grouping/clustering behaviors to object patches.
Finally, we provide comprehensive experiments on real datasets to qualitatively
and quantitatively demonstrate the merit of our proposed methods as well as our
findings. https://github.com/byM1902/ViT_visualization
- Abstract(参考訳): 近年,視覚トランスフォーマー (vit) がコンピュータビジョンの様々なタスクに応用されている。
しかし、なぜ働くのか、どのように振る舞うかといった重要な疑問はほとんど不明である。
本稿では,ニューロンに伝達される情報やvitの層に埋め込まれた特徴を可視化する効果的な可視化手法を提案する。
提案手法は,入力画像における局所的およびグローバル的情報の可視化と,複数のレベルでの潜在的特徴埋め込みに着目し,ViTの計算過程から逸脱する。
レベル0でのインプットと埋め込みの可視化は、ViTが画像閉塞やパッチシャッフルに対して一般的に堅牢である理由、あるいはCNNとは異なり、レベル0の埋め込みは、すでに豊富なセマンティックディテールを持っていることなど、興味深い結果を示している。
次に,有効な可視化を行うための厳密なフレームワークを開発し,vitsフィルタの効果と,オブジェクトパッチに対するグループ化/クラスタ化動作を公開する。
最後に,提案手法のメリットを質的かつ定量的に示すために,実データセットに関する総合的な実験を行った。
https://github.com/byM1902/ViT_visualization
関連論文リスト
- Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects [30.09778169168547]
ビジョントランス (ViT) は様々な環境で最先端のパフォーマンスを実現している。
しかし、視覚的関係を含むタスクを遂行する際、驚くべき失敗を経験する。
論文 参考訳(メタデータ) (2024-06-22T22:43:10Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Interpretability-Aware Vision Transformer [13.310757078491916]
視覚変換器(ViT)は、様々な視覚課題を解決するための顕著なモデルとなっている。
そこで本研究では,モデル解釈可能性を高める新たなトレーニング手法を提案する。
IA-ViTは特徴抽出器、予測器、インタプリタから構成され、解釈可能性を考慮した学習目標と共同で訓練される。
論文 参考訳(メタデータ) (2023-09-14T21:50:49Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - Recent Advances in Vision Transformer: A Survey and Outlook of Recent
Work [1.6317061277457001]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々な視覚タスクにおいて、より人気があり支配的な技術になりつつある。
コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。
一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。
論文 参考訳(メタデータ) (2022-03-03T06:17:03Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。