論文の概要: No More Strided Convolutions or Pooling: A New CNN Building Block for
Low-Resolution Images and Small Objects
- arxiv url: http://arxiv.org/abs/2208.03641v1
- Date: Sun, 7 Aug 2022 05:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:38:55.118500
- Title: No More Strided Convolutions or Pooling: A New CNN Building Block for
Low-Resolution Images and Small Objects
- Title(参考訳): no more strided convolutions or pooling: 低解像度画像と小さなオブジェクトのための新しいcnnビルディングブロック
- Authors: Raja Sunkara and Tie Luo
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。
そこで我々は,SPD-Convと呼ばれる新しいCNNビルディングブロックを提案し,各ストリップ畳み込み層と各プール層に代えて提案する。
- 参考スコア(独自算出の注目度): 3.096615629099617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have made resounding success in many
computer vision tasks such as image classification and object detection.
However, their performance degrades rapidly on tougher tasks where images are
of low resolution or objects are small. In this paper, we point out that this
roots in a defective yet common design in existing CNN architectures, namely
the use of strided convolution and/or pooling layers, which results in a loss
of fine-grained information and learning of less effective feature
representations. To this end, we propose a new CNN building block called
SPD-Conv in place of each strided convolution layer and each pooling layer
(thus eliminates them altogether). SPD-Conv is comprised of a space-to-depth
(SPD) layer followed by a non-strided convolution (Conv) layer, and can be
applied in most if not all CNN architectures. We explain this new design under
two most representative computer vision tasks: object detection and image
classification. We then create new CNN architectures by applying SPD-Conv to
YOLOv5 and ResNet, and empirically show that our approach significantly
outperforms state-of-the-art deep learning models, especially on tougher tasks
with low-resolution images and small objects. We have open-sourced our code at
https://github.com/LabSAINT/SPD-Conv.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、画像分類やオブジェクト検出など、多くのコンピュータビジョンタスクで大きな成功を収めている。
しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。
本稿では,既存のCNNアーキテクチャにおいて,複雑な畳み込み層やプール層を用いることによって,微細な情報が失われ,より効率的な特徴表現が学習されるという,欠点のある共通設計のルーツを指摘する。
そこで本研究では,スプライド畳み込み層とプール層に代えて,spd-convと呼ばれる新しいcnnビルディングブロックを提案する。
SPD-Convはスペース・トゥ・ディープス(SPD)層と非ストリップ・コンボリューション(Conv)層で構成されており、全てのCNNアーキテクチャでは適用できない。
我々は,この新たな設計について,オブジェクト検出と画像分類という2つの代表的なコンピュータビジョンタスクで説明する。
次に, YOLOv5とResNetにSPD-Convを適用することで新しいCNNアーキテクチャを構築し, 最先端のディープラーニングモデル, 特に低解像度の画像や小さなオブジェクトの厳しいタスクにおいて, そのアプローチが著しく優れていることを示す。
コードをhttps://github.com/LabSAINT/SPD-Conv.comでオープンソース化しました。
関連論文リスト
- Squeeze-and-Remember Block [4.150676163661315]
Squeeze-and-Remember(SR)ブロックは、CNNに動的メモリのような機能を与える新しいアーキテクチャユニットである。
SRブロックはトレーニング中に重要な機能を選択的に記憶し、推論中にこれらの機能を適応的に再適用する。
これにより、文脈的に情報を得た予測を行うネットワークの能力が向上する。
論文 参考訳(メタデータ) (2024-10-01T16:06:31Z) - Enhancing Small Object Encoding in Deep Neural Networks: Introducing
Fast&Focused-Net with Volume-wise Dot Product Layer [0.0]
我々は、小さなオブジェクトを固定長特徴ベクトルに符号化するのに適した、新しいディープニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
Fast&Focused-Netは、CNNのいくつかの固有の制限に対処するために設計された、新たに提案された一連のレイヤであるVDP(Volume-wise Dot Product)レイヤを採用しています。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
画像分類における変換器エンコーダ(ViT)と組み合わせた場合
論文 参考訳(メタデータ) (2024-01-18T09:31:25Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - LR-Net: A Block-based Convolutional Neural Network for Low-Resolution
Image Classification [0.0]
ノイズや低解像度の画像から低レベル特徴と大域特徴の両方を学習するためのブロックで構成された,新しい画像分類アーキテクチャを開発した。
ブロックの設計は,性能向上とパラメータサイズ削減のために,Residual ConnectionとInceptionモジュールの影響を強く受けていた。
我々は、提示されたアーキテクチャが既存の最先端畳み込みニューラルネットワークよりも高速で正確であることを示す詳細なテストを実施した。
論文 参考訳(メタデータ) (2022-07-19T20:01:11Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - An Evolution of CNN Object Classifiers on Low-Resolution Images [0.4129225533930965]
低画質画像からのオブジェクト分類は、対象色、アスペクト比、乱れ背景のばらつきに対して困難である。
深層畳み込みニューラルネットワーク(DCNN)は、高解像度画像からオブジェクト分類の課題に直面する非常に強力なシステムとして実証されています。
本稿では,DCNNアーキテクチャを用いて低品質画像を正確に分類する最適アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-01-03T18:44:23Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。