論文の概要: Dilated Convolution with Learnable Spacings makes visual models more aligned with humans: a Grad-CAM study
- arxiv url: http://arxiv.org/abs/2408.03164v1
- Date: Tue, 6 Aug 2024 13:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 14:07:58.183498
- Title: Dilated Convolution with Learnable Spacings makes visual models more aligned with humans: a Grad-CAM study
- Title(参考訳): Dilated Convolution with Learnable Spacingsは、視覚モデルと人間との整合性を高める:Grad-CAMによる研究
- Authors: Rabih Chamas, Ismail Khalfaoui-Hassani, Timothee Masquelier,
- Abstract要約: DCLSは、いくつかのコンピュータビジョンベンチマークにおいて標準および拡張畳み込みよりも優れていることが示されている。
さらに、DCLSは人間の視覚的戦略との整合性として定義されるモデルの解釈可能性を高めていることを示す。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dilated Convolution with Learnable Spacing (DCLS) is a recent advanced convolution method that allows enlarging the receptive fields (RF) without increasing the number of parameters, like the dilated convolution, yet without imposing a regular grid. DCLS has been shown to outperform the standard and dilated convolutions on several computer vision benchmarks. Here, we show that, in addition, DCLS increases the models' interpretability, defined as the alignment with human visual strategies. To quantify it, we use the Spearman correlation between the models' GradCAM heatmaps and the ClickMe dataset heatmaps, which reflect human visual attention. We took eight reference models - ResNet50, ConvNeXt (T, S and B), CAFormer, ConvFormer, and FastViT (sa 24 and 36) - and drop-in replaced the standard convolution layers with DCLS ones. This improved the interpretability score in seven of them. Moreover, we observed that Grad-CAM generated random heatmaps for two models in our study: CAFormer and ConvFormer models, leading to low interpretability scores. We addressed this issue by introducing Threshold-Grad-CAM, a modification built on top of Grad-CAM that enhanced interpretability across nearly all models. The code and checkpoints to reproduce this study are available at: https://github.com/rabihchamas/DCLS-GradCAM-Eval.
- Abstract(参考訳): Dilated Convolution with Learnable Spacing (DCLS)は、拡張畳み込みのようなパラメータの数を増やすことなく、通常のグリッドを挿入することなく、受容場(RF)を拡大できる最近の高度な畳み込み手法である。
DCLSは、いくつかのコンピュータビジョンベンチマークにおいて標準および拡張畳み込みよりも優れていることが示されている。
ここでは,DCLSが人間の視覚的戦略との整合性として定義されるモデルの解釈可能性を高めることを示す。
定量化するために、モデルのGradCAMヒートマップと人間の視覚的注意を反映したClickMeデータセットヒートマップとのSpearman相関を用いる。
ResNet50、ConvNeXt (T、S、B)、CAFormer、ConvFormer、FastViT (Sa 24、36)という8つの参照モデルを採用しました。
これにより、7つの解釈可能性スコアが向上した。
さらに我々は,Grad-CAMがCAFormerモデルとConvFormerモデルという2つのモデルに対してランダムなヒートマップを生成することを観察した。
私たちはThreshold-Grad-CAMを導入することでこの問題に対処しました。
この研究を再現するコードとチェックポイントは、https://github.com/rabihchamas/DCLS-GradCAM-Evalで公開されている。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Recipro-CAM: Gradient-free reciprocal class activation map [0.0]
本稿では,アクティベーションマップとネットワーク出力の相関性を利用するために,軽量なアーキテクチャと勾配のないReciprocal CAM(Recipro-CAM)を提案する。
提案手法により,Score-CAMと比較してResNetファミリーの1:78~3:72%のゲインを得た。
さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。
論文 参考訳(メタデータ) (2022-09-28T13:15:03Z) - Generalizing Adversarial Explanations with Grad-CAM [7.165984630575092]
本稿では,Grad-CAMを例ベースの説明からグローバルモデル動作を説明する方法まで拡張する手法を提案する。
実験では,VGG16,ResNet50,ResNet101などの深層モデルと,InceptionNetv3やXceptionNetのような広層モデルに対する敵攻撃について検討した。
提案手法は、画像解析のためのブラックボックスCNNモデルの振る舞いを解析し、敵攻撃を理解するために利用できる。
論文 参考訳(メタデータ) (2022-04-11T22:09:21Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - Use HiResCAM instead of Grad-CAM for faithful explanations of
convolutional neural networks [89.56292219019163]
説明法は意味のある概念を学習し、素早い相関を悪用しないモデルの開発を容易にする。
一般的なニューラルネットワーク説明法であるGrad-CAMの、未認識の制限について説明する。
本稿では,モデルが各予測に使用する場所のみをハイライトするクラス固有の説明手法であるHiResCAMを提案する。
論文 参考訳(メタデータ) (2020-11-17T19:26:14Z) - Eigen-CAM: Class Activation Map using Principal Components [1.2691047660244335]
この論文は、解釈可能で堅牢で透明なモデルに対する需要の増加に対応するために、従来の考え方に基づいている。
提案したEigen-CAMは、畳み込み層から学習した特徴/表現の基本的なコンポーネントを計算し、視覚化する。
論文 参考訳(メタデータ) (2020-08-01T17:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。