論文の概要: Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis
- arxiv url: http://arxiv.org/abs/2501.09333v2
- Date: Mon, 07 Apr 2025 18:03:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:10.270916
- Title: Prompt-CAM: Making Vision Transformers Interpretable for Fine-Grained Analysis
- Title(参考訳): Prompt-CAM:微粒化解析のための視覚変換器の解釈
- Authors: Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao,
- Abstract要約: 本稿では,視覚変換器(ViT)を微粒化解析に応用するための新しい手法を提案する。
Prompt-CAMは、事前訓練されたViTのクラス固有のプロンプトを学習し、対応する出力を分類に使用する。
- 参考スコア(独自算出の注目度): 29.766516667434026
- License:
- Abstract: We present a simple approach to make pre-trained Vision Transformers (ViTs) interpretable for fine-grained analysis, aiming to identify and localize the traits that distinguish visually similar categories, such as bird species. Pre-trained ViTs, such as DINO, have demonstrated remarkable capabilities in extracting localized, discriminative features. However, saliency maps like Grad-CAM often fail to identify these traits, producing blurred, coarse heatmaps that highlight entire objects instead. We propose a novel approach, Prompt Class Attention Map (Prompt-CAM), to address this limitation. Prompt-CAM learns class-specific prompts for a pre-trained ViT and uses the corresponding outputs for classification. To correctly classify an image, the true-class prompt must attend to unique image patches not present in other classes' images (i.e., traits). As a result, the true class's multi-head attention maps reveal traits and their locations. Implementation-wise, Prompt-CAM is almost a ``free lunch,'' requiring only a modification to the prediction head of Visual Prompt Tuning (VPT). This makes Prompt-CAM easy to train and apply, in stark contrast to other interpretable methods that require designing specific models and training processes. Extensive empirical studies on a dozen datasets from various domains (e.g., birds, fishes, insects, fungi, flowers, food, and cars) validate the superior interpretation capability of Prompt-CAM. The source code and demo are available at https://github.com/Imageomics/Prompt_CAM.
- Abstract(参考訳): 鳥種などの視覚的に類似したカテゴリーを識別する特徴を同定し, 局所化することを目的とした, 微粒化解析のための事前学習型視覚変換器(ViTs)の解釈方法を提案する。
DINOのような事前訓練されたViTは、局所的で差別的な特徴を抽出する際、顕著な能力を示した。
しかし、Grad-CAMのような塩分濃度マップはこれらの特徴を識別できず、代わりにオブジェクト全体をハイライトするぼやけた粗いヒートマップを生成します。
本稿では,この制限に対処する新しいアプローチであるPrompt Class Attention Map(Prompt-CAM)を提案する。
Prompt-CAMは、事前訓練されたViTのクラス固有のプロンプトを学習し、対応する出力を分類に使用する。
イメージを正しく分類するには、真のクラスのプロンプトは、他のクラスのイメージ(つまり、特徴)に存在しないユニークなイメージパッチに従わなければならない。
結果として、真のクラスのマルチヘッドアテンションマップは、特徴とその位置を明らかにする。
実装面では、Prompt-CAMはほぼ'フリーランチ'であり、Visual Prompt Tuning (VPT)の予測ヘッドを変更するだけでよい。
これにより、Prompt-CAMは、特定のモデルやトレーニングプロセスの設計を必要とする他の解釈可能なメソッドとは対照的に、トレーニングや適用が容易になる。
様々な領域(鳥、魚、昆虫、菌類、花、食べ物、車など)の数十のデータセットに関する大規模な実証研究は、Prompt-CAMの優れた解釈能力を検証する。
ソースコードとデモはhttps://github.com/Imageomics/Prompt_CAMで公開されている。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis [24.531871371861477]
我々はこのアイデアを、Detection TRansformer (DETR) にインスパイアされた Transformer Encoder-decoder を通じて実現した。
Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。
私たちのコードと事前トレーニングされたモデルは、Imageomics Institute GitHubサイトで公開されています。
論文 参考訳(メタデータ) (2023-11-07T17:32:55Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for
Vision Transformer [0.0]
視覚変換器(ViT)は、画像分類や物体検出などの様々なコンピュータビジョンタスクにおいて優れた性能を示している。
ViTの最先端ソリューションは、クラスアテンション・ロールアウトと関連技術に依存している。
本稿では,注目行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる,新しい勾配のない視覚的説明手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T05:09:50Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。