論文の概要: Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting
- arxiv url: http://arxiv.org/abs/2003.05586v5
- Date: Wed, 25 Nov 2020 12:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:28:24.730864
- Title: Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting
- Title(参考訳): クラウドカウントのためのマルチスケールアウェアモジュールを用いたエンコーダデコーダに基づく畳み込みニューラルネットワーク
- Authors: Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm
Kijsirikul
- Abstract要約: 正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
- 参考スコア(独自算出の注目度): 6.893512627479196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose two modified neural networks based on dual path
multi-scale fusion networks (SFANet) and SegNet for accurate and efficient
crowd counting. Inspired by SFANet, the first model, which is named M-SFANet,
is attached with atrous spatial pyramid pooling (ASPP) and context-aware module
(CAN). The encoder of M-SFANet is enhanced with ASPP containing parallel atrous
convolutional layers with different sampling rates and hence able to extract
multi-scale features of the target object and incorporate larger context. To
further deal with scale variation throughout an input image, we leverage the
CAN module which adaptively encodes the scales of the contextual information.
The combination yields an effective model for counting in both dense and sparse
crowd scenes. Based on the SFANet decoder structure, M-SFANet's decoder has
dual paths, for density map and attention map generation. The second model is
called M-SegNet, which is produced by replacing the bilinear upsampling in
SFANet with max unpooling that is used in SegNet. This change provides a faster
model while providing competitive counting performance. Designed for high-speed
surveillance applications, M-SegNet has no additional multi-scale-aware module
in order to not increase the complexity. Both models are encoder-decoder based
architectures and are end-to-end trainable. We conduct extensive experiments on
five crowd counting datasets and one vehicle counting dataset to show that
these modifications yield algorithms that could improve state-of-the-art crowd
counting methods. Codes are available at
https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting.
- Abstract(参考訳): 本稿では,2経路多スケール核融合ネットワーク(SFANet)とSegNetに基づく2つの修正ニューラルネットワークを提案する。
SFANetにインスパイアされた最初のモデルであるM-SFANetは、アトラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)を備えている。
M-SFANetのエンコーダは、異なるサンプリングレートの並列アラス畳み込み層を含むASPPで拡張され、それによってターゲットオブジェクトのマルチスケール特徴を抽出し、より大きなコンテキストを組み込むことができる。
さらに,入力画像全体のスケール変動に対処するために,文脈情報のスケールを適応的にエンコードするcanモジュールを利用する。
この組み合わせは、密集した群集シーンとまばらな群集シーンの両方をカウントする効果的なモデルをもたらす。
SFANetデコーダ構造に基づいて、M-SFANetのデコーダは密度マップとアテンションマップ生成のための2つのパスを持つ。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
この変更は、競争力のあるカウントパフォーマンスを提供しながら、より高速なモデルを提供する。
高速監視アプリケーション用に設計されたM-SegNetには、複雑さを増大させないために追加のマルチスケール対応モジュールがない。
どちらのモデルもエンコーダ-デコーダベースのアーキテクチャであり、エンドツーエンドのトレーニング可能である。
5つの群衆計数データセットと1つの車両計数データセットについて広範な実験を行い、これらの修正によって最新の群衆計数方法を改善するアルゴリズムが得られることを示した。
コードはhttps://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Countingで公開されている。
関連論文リスト
- Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - Towards Diverse Binary Segmentation via A Simple yet General Gated
Network [89.88222217065858]
本稿では,バイナリセグメンテーションタスクに対処するシンプルな汎用ネットワーク(GateNet)を提案する。
多段ゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。
我々は,アトーラス畳み込みを改善するためにFold'操作を導入し,新しい折り畳み畳み畳み畳み畳み込みを形成する。
論文 参考訳(メタデータ) (2023-03-18T11:26:36Z) - TimeMAE: Self-Supervised Representations of Time Series with Decoupled
Masked Autoencoders [55.00904795497786]
トランスフォーマネットワークに基づく転送可能な時系列表現を学習するための,新しい自己教師型パラダイムであるTimeMAEを提案する。
TimeMAEは双方向符号化方式を用いて時系列の豊富な文脈表現を学習する。
新たに挿入されたマスク埋め込みによって生じる不一致を解消するため、分離されたオートエンコーダアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-01T08:33:16Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - LegoNN: Building Modular Encoder-Decoder Models [117.47858131603112]
最先端のエンコーダ・デコーダモデルは、原子単位として構築され、訓練されたエンドツーエンドである。
モデルのどのコンポーネントも他のコンポーネントなしでは(再)使用できないため、部品の共有は不可能です。
LegoNNは、エンコーダ-デコーダアーキテクチャを、微調整を必要とせずに、その部品を他のタスクに適用できる方法で構築する手順である。
論文 参考訳(メタデータ) (2022-06-07T14:08:07Z) - Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting [23.336181341124746]
群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
論文 参考訳(メタデータ) (2021-04-06T02:24:06Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z) - A New Multiple Max-pooling Integration Module and Cross Multiscale
Deconvolution Network Based on Image Semantic Segmentation [7.427799203626843]
本稿では,MC-Netと呼ばれる医用画像分割のための深部畳み込みネットワークモデルを提案する。
エンコーダのネットワーク構造では、従来の単一チャネルの畳み込みではなく、マルチスケールの畳み込みを用いる。
論文 参考訳(メタデータ) (2020-03-25T04:27:01Z) - NAS-Count: Counting-by-Density with Neural Architecture Search [74.92941571724525]
ニューラルアーキテクチャサーチ(NAS)を用いたカウントモデルの設計を自動化する
エンド・ツー・エンドの検索エンコーダ・デコーダアーキテクチャであるAutomatic Multi-Scale Network(AMSNet)を導入する。
論文 参考訳(メタデータ) (2020-02-29T09:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。