Fugu-MT 論文翻訳(概要): MCNet: A crowd denstity estimation network based on integrating multiscale attention module

論文の概要: MCNet: A crowd denstity estimation network based on integrating multiscale attention module

arxiv url: http://arxiv.org/abs/2403.20173v1
Date: Fri, 29 Mar 2024 13:40:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 15:34:34.146593
Title: MCNet: A crowd denstity estimation network based on integrating multiscale attention module
Title（参考訳）: MCNet:マルチスケールアテンションモジュールの統合に基づく群集密度推定ネットワーク
Authors: Qiang Guo, Rubo Zhang, Di Zhao,
Abstract要約: 利用者の群集密度を自動的に分類するために,Metro Crowd density Estimation Network(MCNet)を提案する。 Integating Multi-scale Attention (IMA) モジュールは, セマンティック・クラウド・テクスチャの特徴を抽出するプレーン・クラシファイアの能力を高めるために提案されている。ビデオフレームを直接処理し,群集密度推定のためのテクスチャ特徴を自動的に抽出する,軽量な群集テクスチャ特徴抽出ネットワークを提案する。
参考スコア（独自算出の注目度）: 5.841998426808197
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Aiming at the metro video surveillance system has not been able to effectively solve the metro crowd density estimation problem, a Metro Crowd density estimation Network (called MCNet) is proposed to automatically classify crowd density level of passengers. Firstly, an Integrating Multi-scale Attention (IMA) module is proposed to enhance the ability of the plain classifiers to extract semantic crowd texture features to accommodate to the characteristics of the crowd texture feature. The innovation of the IMA module is to fuse the dilation convolution, multiscale feature extraction and attention mechanism to obtain multi-scale crowd feature activation from a larger receptive field with lower computational cost, and to strengthen the crowds activation state of convolutional features in top layers. Secondly, a novel lightweight crowd texture feature extraction network is proposed, which can directly process video frames and automatically extract texture features for crowd density estimation, while its faster image processing speed and fewer network parameters make it flexible to be deployed on embedded platforms with limited hardware resources. Finally, this paper integrates IMA module and the lightweight crowd texture feature extraction network to construct the MCNet, and validate the feasibility of this network on image classification dataset: Cifar10 and four crowd density datasets: PETS2009, Mall, QUT and SH_METRO to validate the MCNet whether can be a suitable solution for crowd density estimation in metro video surveillance where there are image processing challenges such as high density, high occlusion, perspective distortion and limited hardware resources.
Abstract（参考訳）: このメトロ・ビデオ・監視システムでは,メトロ・クラウド・密度推定ネットワーク(MCNet)が,利用者の群衆密度を自動分類する手法として提案されている。まず, 集合テクスチャの特徴に対応するために, 集合テクスチャの特徴を抽出するプレーン分類器の能力を高めるために, 統合型マルチスケールアテンション(IMA)モジュールを提案する。 IMAモジュールの革新は、拡張畳み込み、マルチスケールの特徴抽出、アテンション機構を融合させ、計算コストの低いより大きな受容場からマルチスケールの群集特徴活性化を得るとともに、上位層における畳み込み特徴の群集活性化状態を強化することである。第二に、ビデオフレームを直接処理し、群衆密度推定のためのテクスチャ特徴を自動的に抽出できる軽量な群衆テクスチャ特徴抽出ネットワークが提案され、その高速な画像処理速度とネットワークパラメータの低減により、ハードウェアリソースが限られている組込みプラットフォームへの展開が柔軟になる。最後に、IMAモジュールと軽量な群衆テクスチャ特徴抽出ネットワークを統合して、画像分類データセット(PETS2009, Mall, QUT, SH_METRO)を用いて、このネットワークの実現可能性を検証する。

関連論文リスト

TCFormer: A 5M-Parameter Transformer with Density-Guided Aggregation for Weakly-Supervised Crowd Counting [13.816243638358408]
TC TCTCerは、小型で超軽量で、トランスフォーマーをベースとしたクラウドカウントフレームワークで、500万のパラメータしか持たず、競争的なパフォーマンスを実現している。空間的監督の欠如を補うため,Learningable Density-Weighted Averaging Moduleと呼ばれる機能集約機構を設計した。本稿では,集団密度を異なるグレードに識別する密度レベル分類損失を提案する。
論文参考訳（メタデータ） (2025-12-21T10:37:00Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
Moiré Zero: An Efficient and High-Performance Neural Architecture for Moiré Removal [8.464291713830127]
MZNetは,モアレパターンを効果的に除去し,モアレゼロ状態に画像が近づくように設計されたU字型ネットワークである。 MZNetは高解像度データセットで最先端のパフォーマンスを達成し、低解像度データセットで競合結果を提供する。
論文参考訳（メタデータ） (2025-07-30T06:16:35Z)
LSNet: See Large, Focus Small [67.05569159984691]
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。 LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文参考訳（メタデータ） (2025-03-29T16:00:54Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文参考訳（メタデータ） (2024-04-11T03:00:00Z)
NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文参考訳（メタデータ） (2024-03-04T19:08:20Z)
Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文参考訳（メタデータ） (2024-01-25T07:28:22Z)
SAWU-Net: Spatial Attention Weighted Unmixing Network for Hyperspectral Images [91.20864037082863]
本稿では,空間的注意ネットワークと重み付き未混合ネットワークをエンドツーエンドに学習する,SAWU-Netと呼ばれる空間的注意重み付き未混合ネットワークを提案する。特に,画素アテンションブロックとウィンドウアテンションブロックからなる空間アテンションモジュールを設計し,画素ベースのスペクトル情報とパッチベースの空間情報を効率的にモデル化する。実データと合成データの実験結果から,SAWU-Netの精度と優位性が示された。
論文参考訳（メタデータ） (2023-04-22T05:22:50Z)
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文参考訳（メタデータ） (2022-11-21T18:22:39Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Multi-Task Network Pruning and Embedded Optimization for Real-time Deployment in ADAS [0.0]
カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。自動車業界からの制約は、限られた計算リソースで組み込みシステムを課すことでCNNの展開に挑戦します。商用プロトタイププラットフォーム上で,このような条件下でマルチタスクCNNネットワークを埋め込む手法を提案する。
論文参考訳（メタデータ） (2021-01-19T19:29:38Z)
Multi-stage Attention ResU-Net for Semantic Segmentation of Fine-Resolution Remote Sensing Images [9.398340832493457]
この問題に対処するための線形注意機構(LAM)を提案する。 LAMは、計算効率の高いドット積アテンションとほぼ同値である。微細なリモートセンシング画像からのセマンティックセグメンテーションのためのマルチステージアテンションResU-Netを設計する。
論文参考訳（メタデータ） (2020-11-29T07:24:21Z)
Multi-Attention-Network for Semantic Segmentation of Fine Resolution Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文参考訳（メタデータ） (2020-09-03T09:08:02Z)
Bayesian Multi Scale Neural Network for Crowd Counting [0.0]
本稿では,ResNetベースの特徴抽出器,拡張畳み込みを用いたダウンサンプリングブロック,変換畳み込みを用いたアップサンプリングブロックを用いた新しいネットワークを提案する。本稿では,視点視点問題に対してネットワークを堅牢化する新しいアグリゲーションモジュールを提案する。
論文参考訳（メタデータ） (2020-07-11T21:43:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。