論文の概要: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion
- arxiv url: http://arxiv.org/abs/2202.13660v1
- Date: Mon, 28 Feb 2022 10:04:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 16:35:51.282962
- Title: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion
- Title(参考訳): FusionCount: マルチスケールフィーチャーフュージョンによる効率的な群衆カウント
- Authors: Yiming Ma, Victor Sanchez and Tanaya Guha
- Abstract要約: 本稿では,新しい群集カウントアーキテクチャ(FusionCount)を提案する。
マルチスケールな特徴を得るために、追加の抽出コンポーネントに頼るのではなく、ほとんどのエンコードされた特徴の適応的な融合を利用する。
2つのベンチマークデータベースの実験により、我々のモデルは計算の複雑さを減らして最先端の結果が得られることを示した。
- 参考スコア(独自算出の注目度): 36.15554768378944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art crowd counting models follow an encoder-decoder approach.
Images are first processed by the encoder to extract features. Then, to account
for perspective distortion, the highest-level feature map is fed to extra
components to extract multiscale features, which are the input to the decoder
to generate crowd densities. However, in these methods, features extracted at
earlier stages during encoding are underutilised, and the multiscale modules
can only capture a limited range of receptive fields, albeit with considerable
computational cost. This paper proposes a novel crowd counting architecture
(FusionCount), which exploits the adaptive fusion of a large majority of
encoded features instead of relying on additional extraction components to
obtain multiscale features. Thus, it can cover a more extensive scope of
receptive field sizes and lower the computational cost. We also introduce a new
channel reduction block, which can extract saliency information during decoding
and further enhance the model's performance. Experiments on two benchmark
databases demonstrate that our model achieves state-of-the-art results with
reduced computational complexity.
- Abstract(参考訳): 最先端のクラウドカウントモデルはエンコーダ-デコーダアプローチに従う。
画像はまずエンコーダによって処理され、特徴を抽出する。
次に、視点歪みを考慮し、最高レベルの特徴マップを余分なコンポーネントに供給して、デコーダへの入力である多スケール特徴を抽出することで、群衆密度を生成する。
しかし、これらの方法では、符号化の初期段階で抽出された特徴は未利用であり、マルチスケールモジュールは、計算コストがかなり高いにもかかわらず、限られた範囲の受容場しか取得できない。
本稿では,多元的特徴量を得るために,追加抽出成分に頼るのではなく,多くの符号化特徴量の適応的融合を利用する,新しいクラウドカウントアーキテクチャ (fusioncount) を提案する。
したがって、レセプティブフィールドサイズのより広い範囲をカバーし、計算コストを下げることができる。
また,復号化時の唾液度情報を抽出し,モデルの性能をさらに向上する新しいチャネルリダクションブロックを導入する。
2つのベンチマークデータベースの実験により、我々のモデルは計算複雑性を減らして最先端の結果が得られることを示した。
関連論文リスト
- Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-05T11:47:13Z) - Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。
本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。
その結果,本手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-07-27T02:28:30Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。
我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文 参考訳(メタデータ) (2023-09-20T08:34:38Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - General Purpose Text Embeddings from Pre-trained Language Models for
Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。
また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文 参考訳(メタデータ) (2020-04-29T16:11:26Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。