論文の概要: Class-Discriminative Attention Maps for Vision Transformers
- arxiv url: http://arxiv.org/abs/2312.02364v3
- Date: Fri, 25 Oct 2024 08:27:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:42.954700
- Title: Class-Discriminative Attention Maps for Vision Transformers
- Title(参考訳): 視覚変換器のクラス識別アテンションマップ
- Authors: Lennart Brocki, Jakub Binda, Neo Christopher Chung,
- Abstract要約: 我々は,下流タスクに敏感な説明を生成するために,クラス識別アテンションマップ(CDAM)を開発した。
CDAMは既知のクラスや潜在概念に関して特徴的重要性を推定する。
特に,既存の重要度推定器では十分なクラス感度が得られないことが示唆された。
- 参考スコア(独自算出の注目度): 4.096453902709292
- License:
- Abstract: Importance estimators are explainability methods that quantify feature importance for deep neural networks (DNN). In vision transformers (ViT), the self-attention mechanism naturally leads to attention maps, which are sometimes interpreted as importance scores that indicate which input features ViT models are focusing on. However, attention maps do not account for signals from downstream tasks. To generate explanations that are sensitive to downstream tasks, we have developed class-discriminative attention maps (CDAM), a gradient-based extension that estimates feature importance with respect to a known class or a latent concept. CDAM scales attention scores by how relevant the corresponding tokens are for the predictions of a classifier head. In addition to targeting the supervised classifier, CDAM can explain an arbitrary concept shared by selected samples by measuring similarity in the latent space of ViT. Additionally, we introduce Smooth CDAM and Integrated CDAM, which average a series of CDAMs with slightly altered tokens. Our quantitative benchmarks include correctness, compactness, and class sensitivity, in comparison to 7 other importance estimators. Vanilla, Smooth, and Integrated CDAM excel across all three benchmarks. In particular, our results suggest that existing importance estimators may not provide sufficient class-sensitivity. We demonstrate the utility of CDAM in medical images by training and explaining malignancy and biomarker prediction models based on lung Computed Tomography (CT) scans. Overall, CDAM is shown to be highly class-discriminative and semantically relevant, while providing compact explanations.
- Abstract(参考訳): 重要度推定器は、ディープニューラルネットワーク(DNN)の機能重要度を定量化する説明可能性推定法である。
視覚変換器(ViT)では、自己注意機構が自然に注意マップにつながり、ViTモデルがどの入力特徴に注目しているかを示す重要なスコアとして解釈されることがある。
しかし、アテンションマップは下流のタスクからの信号を考慮していない。
下流タスクに敏感な説明を生成するため,クラス識別型注意マップ(CDAM,class-discriminative attention map)を開発した。
CDAMは、分類器ヘッドの予測に対応するトークンがどの程度関連しているかによって、注意スコアをスケールする。
教師付き分類器のターゲットに加え、CDAMはViTの潜在空間における類似性を測定することで、選択されたサンプルによって共有される任意の概念を説明できる。
さらに,Smooth CDAMとIntegrated CDAMを導入する。
我々の定量的ベンチマークには、他の7つの重要な推定器と比較して、正確性、コンパクト性、およびクラス感度が含まれる。
Vanilla、Smooth、Integrated CDAMは3つのベンチマークで排他的だ。
特に,既存の重要度推定器では十分なクラス感度が得られないことが示唆された。
医用画像におけるCDAMの有用性を,CTスキャンによる悪性度とバイオマーカーの予測モデルを用いて評価した。
全体として、CDAMは、コンパクトな説明を提供しながら、非常に類別的で意味論的に関連があることが示されている。
関連論文リスト
- Characterizing the Interpretability of Attention Maps in Digital Pathology [0.0]
本稿では,デジタル病理学において,注意ネットワークが関連する機能に対応する能力を評価する枠組みを提案する。
人工モデルの共同設立者を作り、専用の解釈可能性メトリクスを使用します。
以上の結果から,AMMILモデルがフレームワーク内で期待どおりに動作していることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T17:58:58Z) - Learning disentangled representations for explainable chest X-ray
classification using Dirichlet VAEs [68.73427163074015]
本研究では,胸部X線像の非絡み合った潜在表現の学習にDirVAE(Dirichlet Variational Autoencoder)を用いることを検討した。
DirVAEモデルにより学習された多モード潜在表現の予測能力について,補助的多ラベル分類タスクの実装により検討した。
論文 参考訳(メタデータ) (2023-02-06T18:10:08Z) - Interpretable Diabetic Retinopathy Diagnosis based on Biomarker
Activation Map [2.6170980960630037]
生成的対角学習に基づく新しいバイオマーカー活性化マップ(BAM)フレームワークを提案する。
456個の黄斑スキャンを含むデータセットを、現在の臨床基準に基づいて非参照型または参照型DRとして評価した。
生成したBAMは非灌流領域や網膜液を含む既知の病態の特徴を強調した。
論文 参考訳(メタデータ) (2022-12-13T00:45:46Z) - CAMANet: Class Activation Map Guided Attention Network for Radiology
Report Generation [24.072847985361925]
放射線医学報告生成(RRG)は、医療資源不足を緩和する大きな可能性を秘めているため、研究の注目を集めている。
RRGの最近の進歩は、単一モーダルな特徴表現を符号化する際のモデルの能力の向上によって引き起こされる。
画像領域と単語間のクロスモーダルアライメントを明示的に検討する研究はほとんどない。
クロスモーダルアライメントを明示的に促進するクラス活性化マップガイドアテンションネットワーク(CAMANet)を提案する。
論文 参考訳(メタデータ) (2022-11-02T18:14:33Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z) - ADVISE: ADaptive Feature Relevance and VISual Explanations for
Convolutional Neural Networks [0.745554610293091]
本稿では,機能マップの各ユニットの関連性を定量化し,活用して視覚的説明を提供する新しい説明可能性手法であるADVISEを紹介する。
我々は、画像分類タスクにおいて、AlexNet、VGG16、ResNet50、XceptionをImageNetで事前訓練した上で、我々のアイデアを広く評価する。
さらに,ADVISEは衛生チェックをパスしながら,感度および実装独立性公理を満たすことを示す。
論文 参考訳(メタデータ) (2022-03-02T18:16:57Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - Learning Inductive Attention Guidance for Partially Supervised
Pancreatic Ductal Adenocarcinoma Prediction [73.96902906734522]
膵管腺癌(PDAC)は、アメリカ合衆国で3番目に多いがん死の原因である。
本稿では,全てのトレーニングデータに対して安価な画像レベルのアノテーションが提供され,それらのサブセットに対してのみ,コストのかかるvoxelアノテーションが利用可能となる,部分教師付き設定について考察する。
Inductive Attention Guidance Network (IAG-Net) を提案し、通常の/PDAC分類のためのグローバル画像レベルの分類器と半教師付きPDAC分類のためのローカルボクセルレベルの分類器を共同で学習する。
論文 参考訳(メタデータ) (2021-05-31T08:16:09Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Multi-Lead ECG Classification via an Information-Based Attention
Convolutional Neural Network [1.1720399305661802]
1次元畳み込みニューラルネットワーク(CNN)は、広範に分類されるタスクに有効であることが証明されている。
残差接続を実装し,入力特徴マップ内の異なるチャネルに含まれる情報から重みを学習できる構造を設計する。
分類タスクにおいて、特定のモデルセグメントのパフォーマンスを監視するために平均平方偏差という指標を導入する。
論文 参考訳(メタデータ) (2020-03-25T02:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。