論文の概要: ViT-CX: Causal Explanation of Vision Transformers
- arxiv url: http://arxiv.org/abs/2211.03064v1
- Date: Sun, 6 Nov 2022 09:06:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:34:41.528987
- Title: ViT-CX: Causal Explanation of Vision Transformers
- Title(参考訳): ViT-CX:視覚変換器の因果説明
- Authors: Weiyan Xie, Xiao-Hui Li, Caleb Chen Cao, Nevin L.Zhang
- Abstract要約: 本稿では,ViT-CXと呼ばれる視覚変換器(ViT)の新規な説明法を提案する。
パッチの埋め込みに基づいており、それらに注意を払うのではなく、それらの因果関係がモデル出力に与える影響に基づいている。
実験の結果,ViT-CXは従来の手法と比較して,より有意義なサリエンシマップを生成し,予測のための重要な証拠を明らかにするのに有効であることがわかった。
- 参考スコア(独自算出の注目度): 15.001828659806831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the popularity of Vision Transformers (ViTs) and eXplainable AI
(XAI), only a few explanation methods have been proposed for ViTs thus far.
They use attention weights of the classification token on patch embeddings and
often produce unsatisfactory saliency maps. In this paper, we propose a novel
method for explaining ViTs called ViT-CX. It is based on patch embeddings,
rather than attentions paid to them, and their causal impacts on the model
output. ViT-CX can be used to explain different ViT models. Empirical results
show that, in comparison with previous methods, ViT-CX produces more meaningful
saliency maps and does a better job at revealing all the important evidence for
prediction. It is also significantly more faithful to the model as measured by
deletion AUC and insertion AUC.
- Abstract(参考訳): ViT(Vision Transformers)やeXplainable AI(XAI)の人気にもかかわらず、これまでのViTではいくつかの説明方法が提案されている。
彼らはパッチ埋め込みに分類トークンの注意重みを使用し、しばしば満足のいく満足度マップを生成する。
本稿では, ViT-CX と呼ばれる新しい ViT 記述法を提案する。
それは、それらに注意を払うのではなく、パッチの埋め込みと、それらがモデル出力に与える影響に基づいている。
ViT-CXは異なるViTモデルを説明するために使用できる。
実験の結果,ViT-CXは従来の手法と比較して,より有意義なサリエンシマップを作成でき,予測のための重要な証拠を明らかにするのに有効であることがわかった。
また、AUCの削除とAUCの挿入によって測定されたモデルにかなり忠実である。
関連論文リスト
- What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - TrojViT: Trojan Insertion in Vision Transformers [16.86004410531673]
視覚変換器(ViT)は、様々な視覚関連タスクにおける最先端の性能を実証している。
本稿では,ステルスで実用的なViT固有のバックドアアタックであるTrojViT$を提案する。
我々は、TrojViTがターゲットクラスに99.64%のテストイメージを分類できることを示す。
論文 参考訳(メタデータ) (2022-08-27T16:19:26Z) - Self-Distilled Vision Transformer for Domain Generalization [58.76055100157651]
ビジョントランスフォーマー(ViT)は、標準ベンチマークにおけるCNNの優位性に挑戦している。
本稿では,ViTの自己蒸留法として考案された簡易なDG手法を提案する。
5つの挑戦的なデータセットにおいて、異なるDGベースラインと様々なViTバックボーンによる顕著なパフォーマンス向上を実証的に示す。
論文 参考訳(メタデータ) (2022-07-25T17:57:05Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Improved Robustness of Vision Transformer via PreLayerNorm in Patch
Embedding [4.961852023598131]
視覚変換器(ViT)は近年,畳み込みニューラルネットワーク(CNN)を置き換えるさまざまな視覚タスクにおいて,最先端のパフォーマンスを実証している。
本稿では,ViTの挙動とロバスト性について検討する。
論文 参考訳(メタデータ) (2021-11-16T12:32:03Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。