論文の概要: Class-Discriminative Attention Maps for Vision Transformers
- arxiv url: http://arxiv.org/abs/2312.02364v1
- Date: Mon, 4 Dec 2023 21:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:25:28.320899
- Title: Class-Discriminative Attention Maps for Vision Transformers
- Title(参考訳): 視覚変換器のクラス識別アテンションマップ
- Authors: Lennart Brocki and Neo Christopher Chung
- Abstract要約: ディープニューラルネットワーク(DNN)の調査と探索のための解釈可能性手法
クラス識別アテンションマップ(CDAM)を紹介する。
CDAMは類別的かつ意味論的に高い関連性を持ち、関連スコアの暗黙の正規化を提供する。
- 参考スコア(独自算出の注目度): 5.439020425819001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpretability methods are critical components for examining and exploring
deep neural networks (DNN), as well as increasing our understanding of and
trust in them. Vision transformers (ViT), which can be trained to
state-of-the-art performance with a self-supervised learning (SSL) training
method, provide built-in attention maps (AM). While AMs can provide
high-quality semantic segmentation of input images, they do not account for any
signal coming from a downstream classifier. We introduce class-discriminative
attention maps (CDAM), a novel post-hoc explanation method that is highly
sensitive to the target class. Our method essentially scales attention scores
by how relevant the corresponding tokens are for the predictions of a
classifier head. Alternative to classifier outputs, CDAM can also explain a
user-defined concept by targeting similarity measures in the latent space of
the ViT. This allows for explanations of arbitrary concepts, defined by the
user through a few sample images. We investigate the operating characteristics
of CDAM in comparison with relevance propagation (RP) and token ablation maps
(TAM), an alternative to pixel occlusion methods. CDAM is highly
class-discriminative and semantically relevant, while providing implicit
regularization of relevance scores.
PyTorch implementation: \url{https://github.com/lenbrocki/CDAM}
Web live demo: \url{https://cdam.informatism.com/}
- Abstract(参考訳): 解釈可能性法は、深層ニューラルネットワーク(dnn)を検査し、探索する上で重要な要素であり、それに対する我々の理解と信頼を高める。
ビジョントランスフォーマー(ViT)は、自己教師付き学習(SSL)トレーニング手法で最先端のパフォーマンスをトレーニングし、組み込みの注意マップ(AM)を提供する。
AMは入力画像の高品質なセマンティックセグメンテーションを提供するが、下流の分類器からの信号は考慮しない。
対象クラスに対して高度に敏感な新しいポストホックな説明法であるクラス判別注意マップ(cdam)を提案する。
本手法は,分類器ヘッドの予測に対応するトークンがどの程度関連があるかによって,注意スコアを本質的にスケールする。
分類器出力の代わりに、CDAMはViTの潜在空間における類似度を目標にすることで、ユーザ定義の概念を説明することもできる。
これにより、ユーザがいくつかのサンプルイメージを通じて定義した任意の概念の説明が可能になる。
我々は,CDAMの動作特性を,画素閉塞法に代わるRelevance propagation (RP) やトークンアブレーションマップ (TAM) と比較した。
CDAMは類別的かつ意味論的に高い関連性を持ち、関連スコアの暗黙の正規化を提供する。
PyTorchの実装: \url{https://github.com/lenbrocki/CDAM} Web Live demo: \url{https://cdam.informatism.com/}
関連論文リスト
- Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Visual Recognition with Deep Nearest Centroids [57.35144702563746]
我々は、概念的にエレガントで驚くほど効果的な大規模視覚認識ネットワークである深部セントロイド(DNC)を考案した。
パラメトリックと比較すると、DNCは画像分類(CIFAR-10, ImageNet)に優れ、画像認識(ADE20K, Cityscapes)を大いに起動する。
論文 参考訳(メタデータ) (2022-09-15T15:47:31Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - ADVISE: ADaptive Feature Relevance and VISual Explanations for
Convolutional Neural Networks [0.745554610293091]
本稿では,機能マップの各ユニットの関連性を定量化し,活用して視覚的説明を提供する新しい説明可能性手法であるADVISEを紹介する。
我々は、画像分類タスクにおいて、AlexNet、VGG16、ResNet50、XceptionをImageNetで事前訓練した上で、我々のアイデアを広く評価する。
さらに,ADVISEは衛生チェックをパスしながら,感度および実装独立性公理を満たすことを示す。
論文 参考訳(メタデータ) (2022-03-02T18:16:57Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。