論文の概要: Prompt-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis
- arxiv url: http://arxiv.org/abs/2501.09333v1
- Date: Thu, 16 Jan 2025 07:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:30.854032
- Title: Prompt-CAM: A Simpler Interpretable Transformer for Fine-Grained Analysis
- Title(参考訳): Prompt-CAM:微粒化解析のためのより単純な解釈可能な変換器
- Authors: Arpita Chowdhury, Dipanjyoti Paul, Zheda Mai, Jianyang Gu, Ziheng Zhang, Kazi Sajeed Mehrab, Elizabeth G. Campolongo, Daniel Rubenstein, Charles V. Stewart, Anuj Karpatne, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao,
- Abstract要約: 事前訓練された視覚変換器(ViT)は、局所的かつ情報的特徴を抽出する顕著な能力を示した。
本稿では,救助活動のための新しいアプローチであるPrompt Class Attention Map(Prompt-CAM)を提案する。
Prompt-CAMは、事前訓練されたViTへのクラス固有のプロンプトを学習し、対応する出力を分類に使用する。
- 参考スコア(独自算出の注目度): 29.766516667434026
- License:
- Abstract: We present a simple usage of pre-trained Vision Transformers (ViTs) for fine-grained analysis, aiming to identify and localize the traits that distinguish visually similar categories, such as different bird species or dog breeds. Pre-trained ViTs such as DINO have shown remarkable capabilities to extract localized, informative features. However, using saliency maps like Grad-CAM can hardly point out the traits: they often locate the whole object by a blurred, coarse heatmap, not traits. We propose a novel approach Prompt Class Attention Map (Prompt-CAM) to the rescue. Prompt-CAM learns class-specific prompts to a pre-trained ViT and uses the corresponding outputs for classification. To classify an image correctly, the true-class prompt must attend to the unique image patches not seen in other classes' images, i.e., traits. As such, the true class's multi-head attention maps reveal traits and their locations. Implementation-wise, Prompt-CAM is almost a free lunch by simply modifying the prediction head of Visual Prompt Tuning (VPT). This makes Prompt-CAM fairly easy to train and apply, sharply contrasting other interpretable methods that design specific models and training processes. It is even simpler than the recently published INterpretable TRansformer (INTR), whose encoder-decoder architecture prevents it from leveraging pre-trained ViTs. Extensive empirical studies on a dozen datasets from various domains (e.g., birds, fishes, insects, fungi, flowers, food, and cars) validate Prompt-CAM superior interpretation capability.
- Abstract(参考訳): 本研究では, 鳥種や犬種など, 視覚的に類似したカテゴリーを識別し, 局所化することを目的とした, 微粒化解析のための事前学習型視覚変換器(ViTs)の簡易な使用法を提案する。
DINOのような事前訓練されたViTは、局所的で情報的な特徴を抽出する顕著な能力を示した。
しかし、Grad-CAMのような塩分濃度マップを使用すると、その特徴をほとんど指摘できない。
本稿では,救助活動のための新しいアプローチであるPrompt Class Attention Map(Prompt-CAM)を提案する。
Prompt-CAMは、事前訓練されたViTへのクラス固有のプロンプトを学習し、対応する出力を分類に使用する。
画像を正しく分類するには、真のクラスのプロンプトは、他のクラスのイメージ、すなわち特性に見られないユニークなイメージパッチに従わなければならない。
そのため、真のクラスのマルチヘッドアテンションマップは特徴とその位置を明らかにする。
実装面では、Prompt-CAMは、Visual Prompt Tuning(VPT)の予測ヘッドを単に変更することで、ほぼ無料のランチである。
これにより、Prompt-CAMは、特定のモデルやトレーニングプロセスを設計する他の解釈可能なメソッドとは対照的に、トレーニングと適用がかなり簡単になります。
Interpretable TRansformer (INTR)は、エンコーダ/デコーダアーキテクチャにより、トレーニング済みのViTを利用できない。
様々な領域(鳥、魚、昆虫、菌類、花、食べ物、車など)の数十のデータセットに関する大規模な実証研究は、Prompt-CAMの優れた解釈能力を検証する。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis [24.531871371861477]
我々はこのアイデアを、Detection TRansformer (DETR) にインスパイアされた Transformer Encoder-decoder を通じて実現した。
Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。
私たちのコードと事前トレーニングされたモデルは、Imageomics Institute GitHubサイトで公開されています。
論文 参考訳(メタデータ) (2023-11-07T17:32:55Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for
Vision Transformer [0.0]
視覚変換器(ViT)は、画像分類や物体検出などの様々なコンピュータビジョンタスクにおいて優れた性能を示している。
ViTの最先端ソリューションは、クラスアテンション・ロールアウトと関連技術に依存している。
本稿では,注目行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる,新しい勾配のない視覚的説明手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T05:09:50Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot
Learning [85.2093650907943]
機械に新しいカテゴリーを認識させるためのセマンティックガイド注意(SEGA)を提案する。
SEGAは意味的知識を使用して、視覚的特徴に注意を払うべきものについて、トップダウンの方法で視覚的知覚を導く。
セマンティックガイドによる注意は期待された機能を実現し、最先端の結果より優れていることを示す。
論文 参考訳(メタデータ) (2021-11-08T08:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。