Fugu-MT 論文翻訳(概要): FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion

論文の概要: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion

arxiv url: http://arxiv.org/abs/2202.13660v1
Date: Mon, 28 Feb 2022 10:04:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 16:35:51.282962
Title: FusionCount: Efficient Crowd Counting via Multiscale Feature Fusion
Title（参考訳）: FusionCount: マルチスケールフィーチャーフュージョンによる効率的な群衆カウント
Authors: Yiming Ma, Victor Sanchez and Tanaya Guha
Abstract要約: 本稿では,新しい群集カウントアーキテクチャ(FusionCount)を提案する。マルチスケールな特徴を得るために、追加の抽出コンポーネントに頼るのではなく、ほとんどのエンコードされた特徴の適応的な融合を利用する。 2つのベンチマークデータベースの実験により、我々のモデルは計算の複雑さを減らして最先端の結果が得られることを示した。
参考スコア（独自算出の注目度）: 36.15554768378944
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art crowd counting models follow an encoder-decoder approach. Images are first processed by the encoder to extract features. Then, to account for perspective distortion, the highest-level feature map is fed to extra components to extract multiscale features, which are the input to the decoder to generate crowd densities. However, in these methods, features extracted at earlier stages during encoding are underutilised, and the multiscale modules can only capture a limited range of receptive fields, albeit with considerable computational cost. This paper proposes a novel crowd counting architecture (FusionCount), which exploits the adaptive fusion of a large majority of encoded features instead of relying on additional extraction components to obtain multiscale features. Thus, it can cover a more extensive scope of receptive field sizes and lower the computational cost. We also introduce a new channel reduction block, which can extract saliency information during decoding and further enhance the model's performance. Experiments on two benchmark databases demonstrate that our model achieves state-of-the-art results with reduced computational complexity.
Abstract（参考訳）: 最先端のクラウドカウントモデルはエンコーダ-デコーダアプローチに従う。画像はまずエンコーダによって処理され、特徴を抽出する。次に、視点歪みを考慮し、最高レベルの特徴マップを余分なコンポーネントに供給して、デコーダへの入力である多スケール特徴を抽出することで、群衆密度を生成する。しかし、これらの方法では、符号化の初期段階で抽出された特徴は未利用であり、マルチスケールモジュールは、計算コストがかなり高いにもかかわらず、限られた範囲の受容場しか取得できない。本稿では,多元的特徴量を得るために,追加抽出成分に頼るのではなく,多くの符号化特徴量の適応的融合を利用する,新しいクラウドカウントアーキテクチャ (fusioncount) を提案する。したがって、レセプティブフィールドサイズのより広い範囲をカバーし、計算コストを下げることができる。また,復号化時の唾液度情報を抽出し,モデルの性能をさらに向上する新しいチャネルリダクションブロックを導入する。 2つのベンチマークデータベースの実験により、我々のモデルは計算複雑性を減らして最先端の結果が得られることを示した。

関連論文リスト

MambaVideo for Discrete Video Tokenization with Channel-Split Quantization [34.23941517563312]
本研究は,2つの重要なコントリビューションを持つ最先端の離散ビデオトークンを導入している。まず,従来のシーケンスベースのトークン化器の限界を克服する,新しいMambaベースのエンコーダデコーダアーキテクチャを提案する。第二に、新しい量子化方式、チャネル分割量子化を導入し、量子化潜在体の表現力を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-06T22:23:27Z)
Leveraging Decoder Architectures for Learned Sparse Retrieval [26.483483554222012]
Learned Sparse Retrieval (LSR) は従来,エンコーダのみの小型トランスアーキテクチャに重点を置いてきた。本研究では,異なるトランスアーキテクチャにおけるLSRの有効性について検討した。
論文参考訳（メタデータ） (2025-04-25T08:04:52Z)
Multi-scale Feature Enhancement in Multi-task Learning for Medical Image Analysis [1.6916040234975798]
医用画像における伝統的な深層学習法は、分割や分類にのみ焦点をあてることが多い。このモデルでは,デコーダがセグメント化マスクを生成するのに対して,エンコーダによって抽出された特徴を分類ラベルの予測に利用する。複数の医療データセットにまたがる実験結果から, セグメンテーションタスクと分類タスクの両方において, モデルの優れた性能が確認された。
論文参考訳（メタデータ） (2024-11-30T04:20:05Z)
Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-05T11:47:13Z)
Few-Shot Medical Image Segmentation with Large Kernel Attention [5.630842216128902]
本稿では,包括的特徴表現能力を持つ数ショットの医用セグメンテーションモデルを提案する。本モデルは,2経路特徴抽出器,アテンションモジュール,適応型プロトタイプ予測モジュール,マルチスケール予測融合モジュールの4つの重要なモジュールから構成される。その結果,本手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-07-27T02:28:30Z)
DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文参考訳（メタデータ） (2024-06-05T01:32:31Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
More complex encoder is not all you need [0.882348769487259]
我々は,強力なデコーダを構築するために,新しいサブピクセル・コンボリューションを組み込んだneU-Net(複雑なエンコーダではないU-Net)を導入する。我々のモデル設計は、SynapseとACDCの両方のデータセット上で、最先端の手法を上回る優れた結果が得られる。
論文参考訳（メタデータ） (2023-09-20T08:34:38Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文参考訳（メタデータ） (2020-07-19T18:44:34Z)
General Purpose Text Embeddings from Pre-trained Language Models for Scalable Inference [34.47592026375839]
我々は,共用テキストエンコーダを用いて,推論中の計算コストの一部を異なるタスクで償却可能であることを示す。また、このようなエンコーダをトレーニングするためのアプローチを比較し、複数のタスクで事前訓練されたエンコーダが、見当たらないタスクによく当てはまることを示す。
論文参考訳（メタデータ） (2020-04-29T16:11:26Z)
Encoder-Decoder Based Convolutional Neural Networks with Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文参考訳（メタデータ） (2020-03-12T03:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。