論文の概要: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion
- arxiv url: http://arxiv.org/abs/2202.13660v1
- Date: Mon, 28 Feb 2022 10:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:35:51.282962
- Title: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion
- Title(参考訳): FusionCount: マルチスケールフィーチャーフュージョンによる効率的な群衆カウント
- Authors: Yiming Ma, Victor Sanchez and Tanaya Guha
- Abstract要約: 本稿では,新しい群集カウントアーキテクチャ(FusionCount)を提案する。
マルチスケールな特徴を得るために、追加の抽出コンポーネントに頼るのではなく、ほとんどのエンコードされた特徴の適応的な融合を利用する。
2つのベンチマークデータベースの実験により、我々のモデルは計算の複雑さを減らして最先端の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 36.15554768378944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art crowd counting models follow an encoder-decoder approach.
Images are first processed by the encoder to extract features. Then, to account
for perspective distortion, the highest-level feature map is fed to extra
components to extract multiscale features, which are the input to the decoder
to generate crowd densities. However, in these methods, features extracted at
earlier stages during encoding are underutilised, and the multiscale modules
can only capture a limited range of receptive fields, albeit with considerable
computational cost. This paper proposes a novel crowd counting architecture
(FusionCount), which exploits the adaptive fusion of a large majority of
encoded features instead of relying on additional extraction components to
obtain multiscale features. Thus, it can cover a more extensive scope of
receptive field sizes and lower the computational cost. We also introduce a new
channel reduction block, which can extract saliency information during decoding
and further enhance the model's performance. Experiments on two benchmark
databases demonstrate that our model achieves state-of-the-art results with
reduced computational complexity.
- Abstract(参考訳): 最先端のクラウドカウントモデルはエンコーダ-デコーダアプローチに従う。
画像はまずエンコーダによって処理され、特徴を抽出する。
次に、視点歪みを考慮し、最高レベルの特徴マップを余分なコンポーネントに供給して、デコーダへの入力である多スケール特徴を抽出することで、群衆密度を生成する。
しかし、これらの方法では、符号化の初期段階で抽出された特徴は未利用であり、マルチスケールモジュールは、計算コストがかなり高いにもかかわらず、限られた範囲の受容場しか取得できない。
本稿では,多元的特徴量を得るために,追加抽出成分に頼るのではなく,多くの符号化特徴量の適応的融合を利用する,新しいクラウドカウントアーキテクチャ (fusioncount) を提案する。
したがって、レセプティブフィールドサイズのより広い範囲をカバーし、計算コストを下げることができる。
また,復号化時の唾液度情報を抽出し,モデルの性能をさらに向上する新しいチャネルリダクションブロックを導入する。
2つのベンチマークデータベースの実験により、我々のモデルは計算複雑性を減らして最先端の結果が得られることを示した。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - ESDMR-Net: A Lightweight Network With Expand-Squeeze and Dual Multiscale
Residual Connections for Medical Image Segmentation [7.921517156237902]
本稿では,拡張型マルチスケール残差ネットワーク(ESDMR-Net)を提案する。
完全な畳み込みネットワークであり、モバイルデバイスのようなリソースに制約のあるコンピューティングハードウェアに適している。
5つの異なる応用例から7つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-17T02:15:49Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - Few-Shot Segmentation via Rich Prototype Generation and Recurrent
Prediction Enhancement [12.614578133091168]
本稿では,プロトタイプ学習パラダイムを強化するために,リッチプロトタイプ生成モジュール (RPGM) と繰り返し予測拡張モジュール (RPEM) を提案する。
RPGMはスーパーピクセルとK平均クラスタリングを組み合わせて、補完的なスケール関係を持つリッチなプロトタイプ機能を生成する。
RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。
論文 参考訳(メタデータ) (2022-10-03T08:46:52Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。