論文の概要: CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object
Localization Perspective
- arxiv url: http://arxiv.org/abs/2403.06676v1
- Date: Mon, 11 Mar 2024 12:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:03:17.490790
- Title: CAM Back Again: Large Kernel CNNs from a Weakly Supervised Object
Localization Perspective
- Title(参考訳): camを振り返る: 弱い教師付きオブジェクトローカライズの観点から見た大規模カーネルcnn
- Authors: Shunsuke Yasuki, Masato Taki
- Abstract要約: 大規模なカーネルCNNは、下流の視覚タスクや分類性能でよく機能することが報告されている。
ダウンストリームタスクにおける大規模カーネルCNNの性能を再考し、弱教師付きオブジェクトローカライゼーションタスクに着目した。
本研究では,現在のカーネルCNNであるConvNeXt,RepLKNet,SLaKを比較し,ERFサイズがダウンストリームタスクの性能向上に重要であることを示す。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, convolutional neural networks (CNNs) with large size kernels have
attracted much attention in the computer vision field, following the success of
the Vision Transformers. Large kernel CNNs have been reported to perform well
in downstream vision tasks as well as in classification performance. The reason
for the high-performance of large kernel CNNs in downstream tasks has been
attributed to the large effective receptive field (ERF) produced by large size
kernels, but this view has not been fully tested. We therefore revisit the
performance of large kernel CNNs in downstream task, focusing on the weakly
supervised object localization (WSOL) task. WSOL, a difficult downstream task
that is not fully supervised, provides a new angle to explore the capabilities
of the large kernel CNNs. Our study compares the modern large kernel CNNs
ConvNeXt, RepLKNet, and SLaK to test the validity of the naive expectation that
ERF size is important for improving downstream task performance. Our analysis
of the factors contributing to high performance provides a different
perspective, in which the main factor is feature map improvement. Furthermore,
we find that modern CNNs are robust to the CAM problems of local regions of
objects being activated, which has long been discussed in WSOL. CAM is the most
classic WSOL method, but because of the above-mentioned problems, it is often
used as a baseline method for comparison. However, experiments on the
CUB-200-2011 dataset show that simply combining a large kernel CNN, CAM, and
simple data augmentation methods can achieve performance (90.99% MaxBoxAcc)
comparable to the latest WSOL method, which is CNN-based and requires special
training or complex post-processing. The code is available at
https://github.com/snskysk/CAM-Back-Again.
- Abstract(参考訳): 近年、大きなカーネルを持つ畳み込みニューラルネットワーク(CNN)は、ビジョントランスフォーマーの成功に続き、コンピュータビジョン分野において多くの注目を集めている。
大規模なカーネルCNNは、下流の視覚タスクや分類性能でよく機能することが報告されている。
ダウンストリームタスクにおける大規模なカーネルCNNの高性能化の理由は、大規模なカーネルによって生成される大規模な有効受容フィールド(ERF)に起因するが、この見解は十分に検証されていない。
そこで我々は、ダウンストリームタスクにおける大規模カーネルCNNの性能を再考し、弱い教師付きオブジェクトローカライゼーション(WSOL)タスクに焦点を当てた。
WSOLは、完全に教師されない難しいダウンストリームタスクであり、大きなカーネルCNNの機能を調べるための新しいアングルを提供する。
本研究では,現在のカーネルCNNであるConvNeXt,RepLKNet,SLaKを比較し,ERFサイズがダウンストリームタスクの性能向上に重要であることを示す。
ハイパフォーマンスに寄与する要因の分析は、特徴マップの改善が主な要因である、異なる視点を提供する。
さらに,最近のCNNは,WSOLで長年議論されてきた局所的なオブジェクト領域のCAM問題に対して堅牢であることがわかった。
CAMは最も古典的なWSOL法であるが、上記の問題により、しばしば比較の基準となる方法として使用される。
しかし、CUB-200-2011データセットの実験では、CNNベースの最新のWSOL法に匹敵するパフォーマンス(90.99%のMaxBoxAcc)を、大規模なカーネルCNN、CAM、単純なデータ拡張メソッドを組み合わせるだけで達成できることが示されている。
コードはhttps://github.com/snskysk/cam-back-againで入手できる。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects [8.933264104073832]
小さな畳み込みカーネルと畳み込み演算は、大きなカーネルサイズの閉じた効果を達成することができる。
スパース機構の助けを借りてCNNが長距離依存を捕捉できるようにするシフトワイズ演算子を提案する。
ImageNet-1kでは、シフトワイド強化CNNモデルは最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-23T13:13:45Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - A Novel Sleep Stage Classification Using CNN Generated by an Efficient
Neural Architecture Search with a New Data Processing Trick [4.365107026636095]
本稿では,畳み込みニューラルネットワーク(CNN)を用いた新しいデータ処理手法を用いて,効率的な5ステップの分類手法を提案する。
我々は、遺伝的アルゴリズム(GA)NASGを最大限に活用して、最高のCNNアーキテクチャを探索する。
我々は,データ処理トリックの収束性を検証するとともに,従来のCNNの性能をそのトリックの前後で比較する。
論文 参考訳(メタデータ) (2021-10-27T10:36:52Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Spectral Leakage and Rethinking the Kernel Size in CNNs [10.432041176720842]
CNNカーネルの小型化は,スペクトルリークの影響を受けやすいことを示す。
従来の3ドル3セントカーネルによるベースラインの分類精度の向上を実証した。
また,ハミングウィンドウ表示を用いたCNNは,特定の種類の敵攻撃に対する堅牢性を高めた。
論文 参考訳(メタデータ) (2021-01-25T14:49:29Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。