論文の概要: FGA: Fourier-Guided Attention Network for Crowd Count Estimation
- arxiv url: http://arxiv.org/abs/2407.06110v1
- Date: Mon, 8 Jul 2024 16:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:40:07.198759
- Title: FGA: Fourier-Guided Attention Network for Crowd Count Estimation
- Title(参考訳): FGA:Fourier-Guided Attention Network for Crowd Count Estimation
- Authors: Yashwardhan Chaudhuri, Ankit Kumar, Arun Balaji Buduru, Adel Alshamrani,
- Abstract要約: 本稿では,群集数推定のための新しい注意機構であるフーリエ誘導注意(FGA)を紹介する。
FGAは、フルスケールのグローバルパターンを含む、マルチスケール情報を効率的にキャプチャする。
我々は,上海Tech-A,上海Tech-B,UCF-CC-50,JHU++といったベンチマークデータセットを用いて,モジュールの性能を評価する。
- 参考スコア(独自算出の注目度): 3.2699537913325516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd counting is gaining societal relevance, particularly in domains of Urban Planning, Crowd Management, and Public Safety. This paper introduces Fourier-guided attention (FGA), a novel attention mechanism for crowd count estimation designed to address the inefficient full-scale global pattern capture in existing works on convolution-based attention networks. FGA efficiently captures multi-scale information, including full-scale global patterns, by utilizing Fast-Fourier Transformations (FFT) along with spatial attention for global features and convolutions with channel-wise attention for semi-global and local features. The architecture of FGA involves a dual-path approach: (1) a path for processing full-scale global features through FFT, allowing for efficient extraction of information in the frequency domain, and (2) a path for processing remaining feature maps for semi-global and local features using traditional convolutions and channel-wise attention. This dual-path architecture enables FGA to seamlessly integrate frequency and spatial information, enhancing its ability to capture diverse crowd patterns. We apply FGA in the last layers of two popular crowd-counting works, CSRNet and CANNet, to evaluate the module's performance on benchmark datasets such as ShanghaiTech-A, ShanghaiTech-B, UCF-CC-50, and JHU++ crowd. The experiments demonstrate a notable improvement across all datasets based on Mean-Squared-Error (MSE) and Mean-Absolute-Error (MAE) metrics, showing comparable performance to recent state-of-the-art methods. Additionally, we illustrate the interpretability using qualitative analysis, leveraging Grad-CAM heatmaps, to show the effectiveness of FGA in capturing crowd patterns.
- Abstract(参考訳): クラウドカウンティングは、特に都市計画、クラウドマネージメント、公共安全の分野において、社会的関連性を高めている。
本稿では,既存のコンボリューションベースアテンションネットワークにおける非効率なフルスケールグローバルパターンキャプチャに対処するために,群衆数推定のための新しいアテンション機構であるフーリエ誘導アテンション(FGA)を提案する。
FGAは、FTA(Fast-Fourier Transformations)を利用して、グローバルな特徴に対する空間的注意と、半グローバルな特徴とローカルな特徴に対するチャネル的な注意を伴う畳み込みを利用して、フルスケールのグローバルなパターンを含むマルチスケール情報を効率的にキャプチャする。
FGAのアーキテクチャは、(1)FFTによるフルスケールのグローバルな特徴を処理し、周波数領域における情報の効率的な抽出を可能にする経路、(2)従来の畳み込みとチャネルの注意力を用いて、半言語的および局所的な特徴マップを処理するための経路である。
このデュアルパスアーキテクチャにより、FGAは周波数と空間情報をシームレスに統合し、多様な群集パターンをキャプチャする能力を高めることができる。
CSRNetとCANNetという2つの一般的なクラウドカウント作業の最後のレイヤにFGAを適用し、上海Tech-A、上海Tech-B、UCF-CC-50、JHU++といったベンチマークデータセット上で、モジュールのパフォーマンスを評価する。
実験では、Mean-Squared-Error(MSE)とMean-Absolute-Error(MAE)メトリクスに基づいて、すべてのデータセットで顕著な改善がなされた。
さらに,Grad-CAMヒートマップを用いた定性解析による解釈可能性について述べるとともに,群集パターンの捕捉におけるFGAの有効性を示す。
関連論文リスト
- Asynchronous Feedback Network for Perceptual Point Cloud Quality Assessment [18.65004981045047]
本稿では,グローバルおよびローカル機能を扱う新しい非同期フィードバックネットワーク(AFNet)を提案する。
AFNetは、グローバルな特徴と局所的な特徴を扱うためにデュアルブランチ構造を採用し、人間の脳の左右半球をシミュレートし、それらの間にフィードバックモジュールを構築する。
3つのデータセットに関する包括的な実験を行い、これらのデータセットに対する最先端のアプローチよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-07-13T08:52:44Z) - Chasing Fairness in Graphs: A GNN Architecture Perspective [73.43111851492593]
グラフニューラルネットワーク(GNN)の統一最適化フレームワーク内で設計されたtextsfFair textsfMessage textsfPassing(FMP)を提案する。
FMPでは、アグリゲーションがまず隣人の情報を活用するために採用され、バイアス軽減ステップにより、人口集団ノードのプレゼンテーションセンタが明示的に統合される。
ノード分類タスクの実験により、提案されたFMPは、実世界の3つのデータセットの公平性と正確性の観点から、いくつかのベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-19T18:00:15Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Revisiting Convolutional Neural Networks for Citywide Crowd Flow
Analytics [27.42571939363958]
本稿では,街中における様々なクラウドフロー分析問題に対処するために,DeepLGRという新しいフレームワークを提案する。
本フレームワークは,1)各領域の表現を学習する局所的特徴抽出モジュール,2)グローバルなコンテキスト先行を抽出し,それらを増幅してグローバルな特徴を生成するグローバルコンテキストモジュール,3)テンソル分解に基づく地域固有の予測器により各領域にカスタマイズされた予測を提供する。
論文 参考訳(メタデータ) (2020-02-28T12:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。