論文の概要: Group-CAM: Group Score-Weighted Visual Explanations for Deep
Convolutional Networks
- arxiv url: http://arxiv.org/abs/2103.13859v1
- Date: Thu, 25 Mar 2021 14:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 18:33:40.636362
- Title: Group-CAM: Group Score-Weighted Visual Explanations for Deep
Convolutional Networks
- Title(参考訳): Group-CAM:Deep Convolutional Networksのためのグループスコア重み付きビジュアル説明
- Authors: Qinglong Zhang and Yubin Yang
- Abstract要約: グループスコア強調クラスアクティベーションマッピング(Group-CAM)と呼ばれる効率的なサリエンシーマップ生成法を提案する。
Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを生成する間は、ネットワークに数十のクエリしか必要としない。
- 参考スコア(独自算出の注目度): 5.807423409327807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose an efficient saliency map generation method, called
Group score-weighted Class Activation Mapping (Group-CAM), which adopts the
"split-transform-merge" strategy to generate saliency maps. Specifically, for
an input image, the class activations are firstly split into groups. In each
group, the sub-activations are summed and de-noised as an initial mask. After
that, the initial masks are transformed with meaningful perturbations and then
applied to preserve sub-pixels of the input (i.e., masked inputs), which are
then fed into the network to calculate the confidence scores. Finally, the
initial masks are weighted summed to form the final saliency map, where the
weights are confidence scores produced by the masked inputs. Group-CAM is
efficient yet effective, which only requires dozens of queries to the network
while producing target-related saliency maps. As a result, Group-CAM can be
served as an effective data augment trick for fine-tuning the networks. We
comprehensively evaluate the performance of Group-CAM on common-used
benchmarks, including deletion and insertion tests on ImageNet-1k, and pointing
game tests on COCO2017. Extensive experimental results demonstrate that
Group-CAM achieves better visual performance than the current state-of-the-art
explanation approaches. The code is available at
https://github.com/wofmanaf/Group-CAM.
- Abstract(参考訳): 本稿では,グループスコア強調型クラス活性化マッピング (group-cam) と呼ばれる,"split-transform-merge" 戦略を応用して塩分マップを生成する効率的な塩分マップ生成手法を提案する。
具体的には、入力画像の場合、クラスアクティベーションはまずグループに分割される。
各グループでは、サブアクティベーションは初期マスクとしてまとめてデノーズされる。
その後、最初のマスクは意味のある摂動で変換され、入力のサブピクセル(つまりマスクされた入力)を保存するために適用される。
最後に、初期マスクを重み付けして最終サリエンシマップを形成し、重み付けはマスク入力によって生成される信頼スコアである。
Group-CAMは効率的だが有効であり、ターゲット関連サリエンシマップを作成しながら、ネットワークに数十のクエリしか必要としない。
その結果、Group-CAMはネットワークを微調整するための効果的なデータ拡張トリックとして機能する。
我々は、imagenet-1kの削除と挿入テスト、coco2017でのゲームテストの指摘を含む、共通使用ベンチマークにおけるグループカメラの性能を総合的に評価する。
広汎な実験結果から,Group-CAMは現在の最先端の説明手法よりも視覚性能が向上することが示された。
コードはhttps://github.com/wofmanaf/Group-CAMで公開されている。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Advancing Vision Transformers with Group-Mix Attention [59.585623293856735]
グループミクス・アテンション(GMA)は、従来の自己アテンションの先進的な代替品である。
GMAは、さまざまなグループサイズとトークン・ツー・トークン・ツー・グループ、グループ・ツー・グループ相関を同時に取得する。
GroupMixFormerは、画像分類、オブジェクト検出、セマンティックセグメンテーションにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-26T01:25:03Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Attention-based Class Activation Diffusion for Weakly-Supervised
Semantic Segmentation [98.306533433627]
クラスアクティベーションマップの抽出(CAM)は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである
本稿では,CAMとアテンション行列を確率的拡散法で結合する新しい手法を提案し,それをAD-CAMとダブする。
擬似ラベルとしてのAD-CAMは、最先端のCAMよりも強力なWSSSモデルが得られることを示す実験である。
論文 参考訳(メタデータ) (2022-11-20T10:06:32Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Green Hierarchical Vision Transformer for Masked Image Modeling [54.14989750044489]
階層型視覚変換器(ViT)を用いたマスク付き画像モデリングのための効率的な手法を提案する。
グループウィンドウのアテンションスキームは,ディバイド・アンド・コンカエ戦略に従って設計する。
グループ化されたパッチに対する注意の全体的なコストを最小限に抑えるため、動的プログラミングアルゴリズムによるグループ化戦略をさらに改善する。
論文 参考訳(メタデータ) (2022-05-26T17:34:42Z) - Dynamic Group Convolution for Accelerating Convolutional Neural Networks [23.644124360336754]
本稿では,各グループ内で接続すべき入力チャネルのどの部分を適応的に選択する動的グループ畳み込み(DGC)を提案する。
複数のグループは、入力画像ごとに、豊富で相補的な視覚的/意味的特徴を適応的にキャプチャすることができる。
DGCは元のネットワーク構造を保持し、従来のグループ畳み込みと同様の計算効率を持つ。
論文 参考訳(メタデータ) (2020-07-08T16:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。