論文の概要: Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting
- arxiv url: http://arxiv.org/abs/2003.05586v5
- Date: Wed, 25 Nov 2020 12:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:28:24.730864
- Title: Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting
- Title(参考訳): クラウドカウントのためのマルチスケールアウェアモジュールを用いたエンコーダデコーダに基づく畳み込みニューラルネットワーク
- Authors: Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm
Kijsirikul
- Abstract要約: 正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
- 参考スコア(独自算出の注目度): 6.893512627479196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose two modified neural networks based on dual path
multi-scale fusion networks (SFANet) and SegNet for accurate and efficient
crowd counting. Inspired by SFANet, the first model, which is named M-SFANet,
is attached with atrous spatial pyramid pooling (ASPP) and context-aware module
(CAN). The encoder of M-SFANet is enhanced with ASPP containing parallel atrous
convolutional layers with different sampling rates and hence able to extract
multi-scale features of the target object and incorporate larger context. To
further deal with scale variation throughout an input image, we leverage the
CAN module which adaptively encodes the scales of the contextual information.
The combination yields an effective model for counting in both dense and sparse
crowd scenes. Based on the SFANet decoder structure, M-SFANet's decoder has
dual paths, for density map and attention map generation. The second model is
called M-SegNet, which is produced by replacing the bilinear upsampling in
SFANet with max unpooling that is used in SegNet. This change provides a faster
model while providing competitive counting performance. Designed for high-speed
surveillance applications, M-SegNet has no additional multi-scale-aware module
in order to not increase the complexity. Both models are encoder-decoder based
architectures and are end-to-end trainable. We conduct extensive experiments on
five crowd counting datasets and one vehicle counting dataset to show that
these modifications yield algorithms that could improve state-of-the-art crowd
counting methods. Codes are available at
https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting.
- Abstract(参考訳): 本稿では,2経路多スケール核融合ネットワーク(SFANet)とSegNetに基づく2つの修正ニューラルネットワークを提案する。
SFANetにインスパイアされた最初のモデルであるM-SFANetは、アトラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)を備えている。
M-SFANetのエンコーダは、異なるサンプリングレートの並列アラス畳み込み層を含むASPPで拡張され、それによってターゲットオブジェクトのマルチスケール特徴を抽出し、より大きなコンテキストを組み込むことができる。
さらに,入力画像全体のスケール変動に対処するために,文脈情報のスケールを適応的にエンコードするcanモジュールを利用する。
この組み合わせは、密集した群集シーンとまばらな群集シーンの両方をカウントする効果的なモデルをもたらす。
SFANetデコーダ構造に基づいて、M-SFANetのデコーダは密度マップとアテンションマップ生成のための2つのパスを持つ。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
この変更は、競争力のあるカウントパフォーマンスを提供しながら、より高速なモデルを提供する。
高速監視アプリケーション用に設計されたM-SegNetには、複雑さを増大させないために追加のマルチスケール対応モジュールがない。
どちらのモデルもエンコーダ-デコーダベースのアーキテクチャであり、エンドツーエンドのトレーニング可能である。
5つの群衆計数データセットと1つの車両計数データセットについて広範な実験を行い、これらの修正によって最新の群衆計数方法を改善するアルゴリズムが得られることを示した。
コードはhttps://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Countingで公開されている。
関連論文リスト
- CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - A New Multiple Max-pooling Integration Module and Cross Multiscale
Deconvolution Network Based on Image Semantic Segmentation [7.427799203626843]
本稿では,MC-Netと呼ばれる医用画像分割のための深部畳み込みネットワークモデルを提案する。
エンコーダのネットワーク構造では、従来の単一チャネルの畳み込みではなく、マルチスケールの畳み込みを用いる。
論文 参考訳(メタデータ) (2020-03-25T04:27:01Z) - NAS-Count: Counting-by-Density with Neural Architecture Search [74.92941571724525]
ニューラルアーキテクチャサーチ(NAS)を用いたカウントモデルの設計を自動化する
エンド・ツー・エンドの検索エンコーダ・デコーダアーキテクチャであるAutomatic Multi-Scale Network(AMSNet)を導入する。
論文 参考訳(メタデータ) (2020-02-29T09:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。