論文の概要: Towards Robust 2D Convolution for Reliable Visual Recognition
- arxiv url: http://arxiv.org/abs/2203.09790v1
- Date: Fri, 18 Mar 2022 08:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:09:25.925939
- Title: Towards Robust 2D Convolution for Reliable Visual Recognition
- Title(参考訳): 信頼できる視覚認識のためのロバストな2次元畳み込み法
- Authors: Lida Li, Shuai Li, Kun Wang, Xiangchu Feng, Lei Zhang
- Abstract要約: 2D畳み込み(Conv2d)は畳み込みニューラルネットワーク(CNN)の重要なモジュールの1つである
我々は,RConv-MKで表される新しいビルディングブロックを設計し,抽出した畳み込み特性の堅牢性を強化する。
本手法は,異なる大きさの学習可能なカーネルの集合を利用して,異なる周波数で特徴を抽出する。
- 参考スコア(独自算出の注目度): 24.855333242794256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 2D convolution (Conv2d), which is responsible for extracting features from
the input image, is one of the key modules of a convolutional neural network
(CNN). However, Conv2d is vulnerable to image corruptions and adversarial
samples. It is an important yet rarely investigated problem that whether we can
design a more robust alternative of Conv2d for more reliable feature
extraction. In this paper, inspired by the recently developed learnable sparse
transform that learns to convert the CNN features into a compact and sparse
latent space, we design a novel building block, denoted by RConv-MK, to
strengthen the robustness of extracted convolutional features. Our method
leverages a set of learnable kernels of different sizes to extract features at
different frequencies and employs a normalized soft thresholding operator to
adaptively remove noises and trivial features at different corruption levels.
Extensive experiments on clean images, corrupted images as well as adversarial
samples validate the effectiveness of the proposed robust module for reliable
visual recognition. The source codes are enclosed in the submission.
- Abstract(参考訳): 入力画像から特徴を抽出する2D畳み込み(Conv2d)は、畳み込みニューラルネットワーク(CNN)の重要なモジュールの1つである。
しかし、Conv2dは画像の破損や敵対的なサンプルに弱い。
より信頼性の高い特徴抽出のために、より堅牢なConv2dを設計できるかどうかという、重要かつまれな調査問題である。
本稿では,CNN特徴をコンパクトかつ疎い潜在空間に変換する学習可能なスパース変換に着想を得て,RConv-MKで表される新しいビルディングブロックを設計し,抽出した畳み込み特徴の堅牢性を高める。
本手法では,異なるサイズの学習可能なカーネルを用いて異なる周波数で特徴を抽出し,適応的にノイズや自明な特徴を除去する正規化ソフトしきい値演算子を用いる。
クリーンな画像, 破損した画像, および敵のサンプルに対する広範囲な実験により, 信頼性の高い視覚認識のための頑健なモジュールの有効性が検証された。
ソースコードは提出書類で囲まれている。
関連論文リスト
- Unsupervised convolutional neural network fusion approach for change
detection in remote sensing images [1.892026266421264]
我々は、変化検出のための全く教師なし浅層畳み込みニューラルネットワーク(USCNN)融合アプローチを導入する。
我々のモデルには3つの特徴がある: トレーニングプロセス全体は教師なしで行われ、ネットワークアーキテクチャは浅く、目的関数はスパースである。
4つの実リモートセンシングデータセットの実験結果から,提案手法の有効性と有効性が確認された。
論文 参考訳(メタデータ) (2023-11-07T03:10:17Z) - Pixel to Binary Embedding Towards Robustness for CNNs [25.418899358703378]
CNNの堅牢性を向上させるために,Pixel to Binary Embedding (P2BE)を提案する。
P2BEは、従来の手書きバイナリ埋め込み法とは対照的に、学習可能なバイナリ埋め込み法である。
これは、訓練中に表示されない対向的摂動や視覚的腐敗に対する堅牢性において、他のバイナリ埋め込み手法よりも優れる。
論文 参考訳(メタデータ) (2022-06-13T04:06:12Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Informative Dropout for Robust Representation Learning: A Shape-bias
Perspective [84.30946377024297]
Informative Dropout (InfoDrop) と呼ばれる軽量モデル非依存の手法を提案し, 解釈性の向上とテクスチャバイアスの低減を図る。
具体的には、画像中の局所的な自己情報に基づいて形状からテクスチャを識別し、Dropoutのようなアルゴリズムを用いて局所的なテクスチャからのモデル出力をデコレーションする。
論文 参考訳(メタデータ) (2020-08-10T16:52:24Z) - Pix2Vox++: Multi-scale Context-aware 3D Object Reconstruction from
Single and Multiple Images [56.652027072552606]
Pix2Vox++という,単一ビューと複数ビューの3Dオブジェクト再構成のための新しいフレームワークを提案する。
良く設計されたエンコーダデコーダを用いて、各入力画像から粗い3Dボリュームを生成する。
次に、マルチスケールコンテキスト対応融合モジュールを導入し、全ての粗い3Dボリュームから異なる部分の高品質な再構成を適応的に選択し、融合した3Dボリュームを得る。
論文 参考訳(メタデータ) (2020-06-22T13:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。