論文の概要: F-CAM: Full Resolution CAM via Guided Parametric Upscaling
- arxiv url: http://arxiv.org/abs/2109.07069v1
- Date: Wed, 15 Sep 2021 04:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 15:12:52.061267
- Title: F-CAM: Full Resolution CAM via Guided Parametric Upscaling
- Title(参考訳): F-CAM:ガイドパラメトリックアップスケーリングによる全分解能CAM
- Authors: Soufiane Belharbi, Aydin Sarraf, Marco Pedersoli, Ismail Ben Ayed,
Luke McCaffrey, Eric Granger
- Abstract要約: クラスアクティベーションマッピング(CAM)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに多くの注目を集めている。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
完全分解能CAMを高精度に構築できるCAMのパラメトリックアップスケーリング法を提案する。
- 参考スコア(独自算出の注目度): 20.609010268320013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Class Activation Mapping (CAM) methods have recently gained much attention
for weakly-supervised object localization (WSOL) tasks, allowing for CNN
visualization and interpretation without training on fully annotated image
datasets. CAM methods are typically integrated within off-the-shelf CNN
backbones, such as ResNet50. Due to convolution and downsampling/pooling
operations, these backbones yield low resolution CAMs with a down-scaling
factor of up to 32, making accurate localization more difficult. Interpolation
is required to restore a full size CAMs, but without considering the
statistical properties of the objects, leading to activations with inconsistent
boundaries and inaccurate localizations. As an alternative, we introduce a
generic method for parametric upscaling of CAMs that allows constructing
accurate full resolution CAMs (F-CAMs). In particular, we propose a trainable
decoding architecture that can be connected to any CNN classifier to produce
more accurate CAMs. Given an original (low resolution) CAM, foreground and
background pixels are randomly sampled for fine-tuning the decoder. Additional
priors such as image statistics, and size constraints are also considered to
expand and refine object boundaries. Extensive experiments using three CNN
backbones and six WSOL baselines on the CUB-200-2011 and OpenImages datasets,
indicate that our F-CAM method yields a significant improvement in CAM
localization accuracy. F-CAM performance is competitive with state-of-art WSOL
methods, yet it requires fewer computational resources during inference.
- Abstract(参考訳): クラスアクティベーションマッピング(cam)メソッドは、最近、弱い教師付きオブジェクトローカライゼーション(wsol)タスクに多くの注目を集め、完全に注釈付き画像データセットをトレーニングすることなくcnnの可視化と解釈を可能にした。
CAMメソッドは通常、ResNet50のような既製のCNNバックボーンに統合される。
コンボリューションとダウンサンプリング/プール操作により、これらのバックボーンは最大32のダウンスケーリング係数を持つ低分解能CAMを生成し、正確なローカライゼーションを難しくする。
補間はフルサイズのcamを復元するために必要であるが、オブジェクトの統計的性質を考慮せず、一貫性のない境界と不正確な局在を持つアクティベーションに繋がる。
代替として、正確なフル解像度CAM(F-CAM)を構築することができるCAMのパラメトリックアップスケーリング法を提案する。
特に,より正確なCAMを生成するために,任意のCNN分類器に接続可能なトレーニング可能な復号化アーキテクチャを提案する。
オリジナルの(解像度の低い)CAMが与えられた場合、デコーダを微調整するためにフォアグラウンドと背景画素をランダムにサンプリングする。
画像統計学やサイズ制約といった他の先例も、オブジェクト境界を拡張して洗練すると考えられる。
CUB-200-2011およびOpenImagesデータセットの3つのCNNバックボーンと6つのWSOLベースラインを用いた大規模な実験により、我々のF-CAM法はCAMのローカライゼーション精度を大幅に向上することが示された。
F-CAMの性能は最先端のWSOL法と競合するが、推論時に計算資源を少なくする。
関連論文リスト
- Generalizing GradCAM for Embedding Networks [0.0]
本稿では,組込みネットワークのためのGrad-CAMを一般化した EmbeddingCAM を提案する。
提案手法の有効性をCUB-200-2011データセットに示すとともに,そのデータセットに対する定量的,定性的な分析結果を示す。
論文 参考訳(メタデータ) (2024-02-01T04:58:06Z) - BroadCAM: Outcome-agnostic Class Activation Mapping for Small-scale
Weakly Supervised Applications [69.22739434619531]
そこで我々はBroadCAMと呼ばれる結果に依存しないCAMアプローチを提案する。
VOC2012でBroadCAM、WSSSでBCSS-WSSS、WSOLでOpenImages30kを評価することで、BroadCAMは優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-09-07T06:45:43Z) - TCAM: Temporal Class Activation Maps for Object Localization in
Weakly-Labeled Unconstrained Videos [22.271760669551817]
弱教師付きオブジェクトローカライゼーション(WSVOL)は、オブジェクトクラスのようなグローバルなビデオタグのみを使用して、ビデオ内のオブジェクトの配置を可能にする。
本稿では、静止画像に基づいてWSOL用に設計されたクラスアクティベーションマッピング(CAM)手法をうまく活用する。
ビデオの時間的情報を活用するために,新たな時間的CAM (TCAM) 手法を導入し,DLモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-30T21:20:34Z) - Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation [88.55040177178442]
クラスアクティベーションマップ(CAM)は、セマンティックセグメンテーションのための疑似マスクを生成する最も標準的なステップである。
しかし、不満足な擬似マスクのくちばしは、CAMで広く使われているバイナリクロスエントロピー損失(BCE)である。
ソフトマックスクロスエントロピー損失(SCE)を用いて収束CAMをBCEで再活性化する。
PASCAL VOC と MSCOCO の評価は、ReCAM が高品質なマスクを生成するだけでなく、オーバーヘッドの少ない任意の CAM 版でプラグイン・アンド・プレイをサポートすることを示している。
論文 参考訳(メタデータ) (2022-03-02T09:14:58Z) - PCAM: Product of Cross-Attention Matrices for Rigid Registration of
Point Clouds [79.99653758293277]
PCAMは、キー要素がクロスアテンション行列のポイントワイズ積であるニューラルネットワークである。
そこで本研究では,PCAMがステップ(a)とステップ(b)をディープネットを介して共同で解決する手法によって,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-04T09:23:27Z) - TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised
Object Localization [112.46381729542658]
弱監督オブジェクトローカリゼーション(WSOL)は、画像カテゴリラベルを与えられたときに難しい問題です。
長距離依存抽出のための視覚変換器における自己注意機構をフル活用するために,トークン意味結合注意マップ(TS-CAM)を導入する。
論文 参考訳(メタデータ) (2021-03-27T09:43:16Z) - Use HiResCAM instead of Grad-CAM for faithful explanations of
convolutional neural networks [89.56292219019163]
説明法は意味のある概念を学習し、素早い相関を悪用しないモデルの開発を容易にする。
一般的なニューラルネットワーク説明法であるGrad-CAMの、未認識の制限について説明する。
本稿では,モデルが各予測に使用する場所のみをハイライトするクラス固有の説明手法であるHiResCAMを提案する。
論文 参考訳(メタデータ) (2020-11-17T19:26:14Z) - High resolution weakly supervised localization architectures for medical
images [3.7117844677482146]
我々は,NIH の Chest X-Ray 14 データセット上で平均点定位精度 0.62 を達成した,高精度な教師付きローカライゼーションのモデルを提案する。
実験の結果,グローバル平均プール (GAP) とグループ正規化 (Group Normalization) がCAMの局所化精度を低下させる主要な原因であることが示唆された。
論文 参考訳(メタデータ) (2020-10-22T06:42:00Z) - IS-CAM: Integrated Score-CAM for axiomatic-based explanations [0.0]
本稿では,IS-CAM(Integrated Score-CAM)を提案する。
ILSVRC 2012 Validation データセットからランダムに選択した2000個の画像に対して,IS-CAM の汎用性を検証した。
論文 参考訳(メタデータ) (2020-10-06T21:03:03Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。