論文の概要: ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for
Vision Transformer
- arxiv url: http://arxiv.org/abs/2310.02588v1
- Date: Wed, 4 Oct 2023 05:09:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 16:21:09.259430
- Title: ViT-ReciproCAM: Gradient and Attention-Free Visual Explanations for
Vision Transformer
- Title(参考訳): ViT-ReciproCAM:視覚変換器のグラディエント・アテンションフリーな視覚説明
- Authors: Seok-Yong Byun, Wonju Lee
- Abstract要約: 視覚変換器(ViT)は、画像分類や物体検出などの様々なコンピュータビジョンタスクにおいて優れた性能を示している。
ViTの最先端ソリューションは、クラスアテンション・ロールアウトと関連技術に依存している。
本稿では,注目行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる,新しい勾配のない視覚的説明手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel approach to address the challenges of
understanding the prediction process and debugging prediction errors in Vision
Transformers (ViT), which have demonstrated superior performance in various
computer vision tasks such as image classification and object detection. While
several visual explainability techniques, such as CAM, Grad-CAM, Score-CAM, and
Recipro-CAM, have been extensively researched for Convolutional Neural Networks
(CNNs), limited research has been conducted on ViT. Current state-of-the-art
solutions for ViT rely on class agnostic Attention-Rollout and Relevance
techniques. In this work, we propose a new gradient-free visual explanation
method for ViT, called ViT-ReciproCAM, which does not require attention matrix
and gradient information. ViT-ReciproCAM utilizes token masking and generated
new layer outputs from the target layer's input to exploit the correlation
between activated tokens and network predictions for target classes. Our
proposed method outperforms the state-of-the-art Relevance method in the
Average Drop-Coherence-Complexity (ADCC) metric by $4.58\%$ to $5.80\%$ and
generates more localized saliency maps. Our experiments demonstrate the
effectiveness of ViT-ReciproCAM and showcase its potential for understanding
and debugging ViT models. Our proposed method provides an efficient and
easy-to-implement alternative for generating visual explanations, without
requiring attention and gradient information, which can be beneficial for
various applications in the field of computer vision.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)における予測プロセスとデバッギング予測エラーの理解という課題に対して,画像分類や物体検出などのコンピュータビジョンタスクにおいて,優れた性能を示す新しいアプローチを提案する。
CAM、Grad-CAM、Score-CAM、Recipro-CAMなどの視覚的説明可能性技術は、畳み込みニューラルネットワーク(CNN)のために広く研究されているが、ViTでは限られた研究がなされている。
現在のViTの最先端ソリューションは、クラス非依存のアテンション・ロールアウトとレバレンス技術に依存している。
本研究では、注意行列や勾配情報を必要としないViT-ReciproCAMと呼ばれる、新しい勾配のない視覚的説明法を提案する。
ViT-ReciproCAMはトークンマスキングを利用して、ターゲット層の入力から新たなレイヤ出力を生成し、アクティブトークンとターゲットクラスのネットワーク予測の相関を利用する。
提案手法は, 平均ドロップコヒーレンス・複雑度(ADCC)測定値において, 4.58 %$ から 5.80 %$ に向上し, より局所的なサリエンシマップを生成する。
実験では,ViT-ReciproCAMの有効性を実証し,ViTモデルの理解とデバッグの可能性を示した。
提案手法は,コンピュータビジョンの分野における様々な応用に有用であり,注意や勾配の情報を必要とせず,視覚的説明を生成するための効率的で実装の容易な代替手段を提供する。
関連論文リスト
- ViTOC: Vision Transformer and Object-aware Captioner [0.0]
ViTOCは画像キャプションのための視覚言語モデルであり、生成された記述の正確さと多様性の課題に対処する。
事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
論文 参考訳(メタデータ) (2024-11-09T13:13:49Z) - LW-DETR: A Transformer Replacement to YOLO for Real-Time Detection [63.780355815743135]
リアルタイム物体検出においてYOLOよりも優れた軽量検出変換器LW-DETRを提案する。
アーキテクチャは、ViTエンコーダ、プロジェクタ、浅いDETRデコーダの単純なスタックである。
論文 参考訳(メタデータ) (2024-06-05T17:07:24Z) - Attention Guided CAM: Visual Explanations of Vision Transformer Guided
by Self-Attention [2.466595763108917]
本稿では,ViT に適応した注意誘導型可視化手法を提案する。
本手法は,クラスラベルのみを用いて,高精度なセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティクスを提供する。
論文 参考訳(メタデータ) (2024-02-07T03:43:56Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。