論文の概要: Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition
- arxiv url: http://arxiv.org/abs/2006.11538v1
- Date: Sat, 20 Jun 2020 10:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:36:52.261518
- Title: Pyramidal Convolution: Rethinking Convolutional Neural Networks for
Visual Recognition
- Title(参考訳): ピラミッド畳み込み:視覚認識のための畳み込みニューラルネットワーク再考
- Authors: Ionut Cosmin Duta, Li Liu, Fan Zhu, Ling Shao
- Abstract要約: この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvをベースとした,画像分類,映像行動分類/認識,オブジェクト検出,意味的画像分割/パーシングの4つの主要なタスクについて,異なるアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 98.10703825716142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces pyramidal convolution (PyConv), which is capable of
processing the input at multiple filter scales. PyConv contains a pyramid of
kernels, where each level involves different types of filters with varying size
and depth, which are able to capture different levels of details in the scene.
On top of these improved recognition capabilities, PyConv is also efficient
and, with our formulation, it does not increase the computational cost and
parameters compared to standard convolution. Moreover, it is very flexible and
extensible, providing a large space of potential network architectures for
different applications. PyConv has the potential to impact nearly every
computer vision task and, in this work, we present different architectures
based on PyConv for four main tasks on visual recognition: image
classification, video action classification/recognition, object detection and
semantic image segmentation/parsing. Our approach shows significant
improvements over all these core tasks in comparison with the baselines. For
instance, on image recognition, our 50-layers network outperforms in terms of
recognition performance on ImageNet dataset its counterpart baseline ResNet
with 152 layers, while having 2.39 times less parameters, 2.52 times lower
computational complexity and more than 3 times less layers. On image
segmentation, our novel framework sets a new state-of-the-art on the
challenging ADE20K benchmark for scene parsing. Code is available at:
https://github.com/iduta/pyconv
- Abstract(参考訳): この研究は、複数のフィルタスケールで入力を処理できるピラミッド畳み込み(PyConv)を導入している。
PyConvにはカーネルのピラミッドがあり、各レベルにはさまざまなサイズと深さのフィルタが含まれており、シーン内のさまざまなレベルの詳細をキャプチャすることができる。
これらの改良された認識機能に加えて、PyConvは効率的であり、私たちの定式化によって、標準的な畳み込みに比べて計算コストやパラメータが向上しない。
さらに、非常に柔軟で拡張性があり、異なるアプリケーションのための潜在的なネットワークアーキテクチャの広い空間を提供する。
PyConvは、ほぼすべてのコンピュータビジョンタスクに影響を与える可能性があり、本研究では、画像分類、ビデオアクション分類/認識、オブジェクト検出、セマンティックイメージ分割/パーシングの4つの主要なタスクに対して、PyConvに基づく異なるアーキテクチャを提示する。
提案手法は,これらすべてのコアタスクに対して,ベースラインに比べて大幅に改善されている。
例えば、画像認識において、我々の50層ネットワークは152層からなるImageNetデータセットのベースラインであるResNetの認識性能において優れており、パラメータは2.39倍、計算複雑性は2.52倍、レイヤーは3倍以上である。
画像セグメンテーションでは,新たなフレームワークにより,シーン解析に挑戦するade20kベンチマークを新たに設定する。
コードは、https://github.com/iduta/pyconvで入手できる。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - kMaX-DeepLab: k-means Mask Transformer [41.104116145904825]
既存のトランスフォーマーベースの視覚モデルは、単にNLPからアイデアを借りているだけである。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformerを開発した。
私たちのkMaX-DeepLabは、58.0% PQのCOCO valセット、68.4% PQのCityscapes valセット、44.0% AP、83.5% mIoUの最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-08T17:59:01Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - Learning Versatile Neural Architectures by Propagating Network Codes [74.2450894473073]
アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」を提案する。
ncpはネットワークコードから学習するが、オリジナルデータではないため、データセット間で効率的にアーキテクチャを更新することができる。
論文 参考訳(メタデータ) (2021-03-24T15:20:38Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。