論文の概要: EHNet: An Efficient Hybrid Network for Crowd Counting and Localization
- arxiv url: http://arxiv.org/abs/2503.12061v1
- Date: Sat, 15 Mar 2025 09:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:33.149828
- Title: EHNet: An Efficient Hybrid Network for Crowd Counting and Localization
- Title(参考訳): EHNet: クラウドカウントとローカライゼーションのための効率的なハイブリッドネットワーク
- Authors: Yuqing Yan, Yirui Wu,
- Abstract要約: 単一画像内のマルチスケールの群集分布は、群集数え作業における根本的な課題である。
EHNet(Efficient Hybrid Network)は,効率的なクラウドカウントとローカライゼーションのための新しいフレームワークである。
4つのベンチマークデータセットの実験結果は、EHNetが計算オーバーヘッドを減らして競合性能を達成することを示した。
- 参考スコア(独自算出の注目度): 5.052126684056964
- License:
- Abstract: In recent years, crowd counting and localization have become crucial techniques in computer vision, with applications spanning various domains. The presence of multi-scale crowd distributions within a single image remains a fundamental challenge in crowd counting tasks. To address these challenges, we introduce the Efficient Hybrid Network (EHNet), a novel framework for efficient crowd counting and localization. By reformulating crowd counting into a point regression framework, EHNet leverages the Spatial-Position Attention Module (SPAM) to capture comprehensive spatial contexts and long-range dependencies. Additionally, we develop an Adaptive Feature Aggregation Module (AFAM) to effectively fuse and harmonize multi-scale feature representations. Building upon these, we introduce the Multi-Scale Attentive Decoder (MSAD). Experimental results on four benchmark datasets demonstrate that EHNet achieves competitive performance with reduced computational overhead, outperforming existing methods on ShanghaiTech Part \_A, ShanghaiTech Part \_B, UCF-CC-50, and UCF-QNRF. Our code is in https://anonymous.4open.science/r/EHNet.
- Abstract(参考訳): 近年、クラウドカウントやローカライゼーションはコンピュータビジョンにおいて重要な技術となり、様々な領域にまたがる応用が進んでいる。
単一画像内に複数スケールの群集分布が存在することは、群集数え作業における根本的な課題である。
これらの課題に対処するために,効率的なクラウドカウントとローカライゼーションのための新しいフレームワークであるEHNet(Efficient Hybrid Network)を紹介した。
EHNetは、クラウドカウントをポイントレグレッションフレームワークに再構成することで、SPAM(Spatial-Position Attention Module)を活用して、包括的な空間コンテキストと長距離依存関係をキャプチャする。
さらに,マルチスケールな特徴表現を効果的に融合・調和させる適応的特徴集合モジュール (AFAM) を開発した。
これらに基づいて,MSAD(Multi-Scale Attentive Decoder)を導入する。
4つのベンチマークデータセットによる実験結果から,EHNetは計算オーバーヘッドを減らし,上海技術部,上海技術部,UCF-CC-50,UCF-QNRFの既存手法よりも優れていた。
私たちのコードはhttps://anonymous.4open.science/r/EHNetにあります。
関連論文リスト
- Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - FGA: Fourier-Guided Attention Network for Crowd Count Estimation [3.2699537913325516]
本稿では,群集数推定のための新しい注意機構であるフーリエ誘導注意(FGA)を紹介する。
FGAは、フルスケールのグローバルパターンを含む、マルチスケール情報を効率的にキャプチャする。
我々は,上海Tech-A,上海Tech-B,UCF-CC-50,JHU++といったベンチマークデータセットを用いて,モジュールの性能を評価する。
論文 参考訳(メタデータ) (2024-07-08T16:47:19Z) - AdaFSNet: Time Series Classification Based on Convolutional Network with a Adaptive and Effective Kernel Size Configuration [9.070240771963544]
本稿では、時系列分類の精度を高めるために、適応的で効果的なフルスコープ畳み込みニューラルネットワーク(AdaFSNet)を提案する。
我々のモデルは,AdaFSNetネットワークの効率と時系列分類タスクの処理効率を基礎として,分類精度の点でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2024-04-28T16:58:53Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [86.02485817444216]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Multi-scale Feature Aggregation for Crowd Counting [84.45773306711747]
マルチスケール特徴集約ネットワーク(MSFANet)を提案する。
MSFANetは、ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールで構成されている。
論文 参考訳(メタデータ) (2022-08-10T10:23:12Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。