論文の概要: RCCFormer: A Robust Crowd Counting Network Based on Transformer
- arxiv url: http://arxiv.org/abs/2504.04935v1
- Date: Mon, 07 Apr 2025 11:19:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:30.795433
- Title: RCCFormer: A Robust Crowd Counting Network Based on Transformer
- Title(参考訳): RCCFormer: Transformerをベースとしたロバストなクラウドカウンタネットワーク
- Authors: Peng Liu, Heng-Chao Li, Sen Lei, Nanqing Liu, Bin Feng, Xiao Wu,
- Abstract要約: 本稿では,RCCFormerと呼ばれる,トランスフォーマーをベースとしたロバストなクラウドカウントネットワークを提案する。
提案手法は, バックボーンアーキテクチャの様々な段階で抽出された特徴を巧みに統合したマルチレベル特徴融合モジュール (MFFM) を組み込んだものである。
提案手法の有効性を上海Tech Part_A,Part_B,NWPU-Crowd,QNRFデータセットで検証した。
- 参考スコア(独自算出の注目度): 17.02332017201233
- License:
- Abstract: Crowd counting, which is a key computer vision task, has emerged as a fundamental technology in crowd analysis and public safety management. However, challenges such as scale variations and complex backgrounds significantly impact the accuracy of crowd counting. To mitigate these issues, this paper proposes a robust Transformer-based crowd counting network, termed RCCFormer, specifically designed for background suppression and scale awareness. The proposed method incorporates a Multi-level Feature Fusion Module (MFFM), which meticulously integrates features extracted at diverse stages of the backbone architecture. It establishes a strong baseline capable of capturing intricate and comprehensive feature representations, surpassing traditional baselines. Furthermore, the introduced Detail-Embedded Attention Block (DEAB) captures contextual information and local details through global self-attention and local attention along with a learnable manner for efficient fusion. This enhances the model's ability to focus on foreground regions while effectively mitigating background noise interference. Additionally, we develop an Adaptive Scale-Aware Module (ASAM), with our novel Input-dependent Deformable Convolution (IDConv) as its fundamental building block. This module dynamically adapts to changes in head target shapes and scales, significantly improving the network's capability to accommodate large-scale variations. The effectiveness of the proposed method is validated on the ShanghaiTech Part_A and Part_B, NWPU-Crowd, and QNRF datasets. The results demonstrate that our RCCFormer achieves excellent performance across all four datasets, showcasing state-of-the-art outcomes.
- Abstract(参考訳): クラウドカウンティング(Crowd counting)は、コンピュータビジョンの重要なタスクであり、クラウド分析と公共安全管理の基本的な技術として登場した。
しかし、スケールの変動や複雑な背景といった課題は、群衆カウントの精度に大きな影響を及ぼす。
これらの問題を緩和するため,本論文では,背景抑圧とスケール認知に特化して設計された,堅牢なトランスフォーマーベースのクラウドカウントネットワークであるRCCFormerを提案する。
提案手法は, バックボーンアーキテクチャの様々な段階で抽出された特徴を巧みに統合したマルチレベル特徴融合モジュール (MFFM) を組み込んだものである。
複雑な包括的特徴表現を捉え、従来のベースラインを超える強力なベースラインを確立する。
さらに、Detail-Embedded Attention Block (DEAB)は、グローバルな自己注意と局所的な注意を通じてコンテキスト情報と局所的な詳細を、効率的な融合のための学習可能な方法とともにキャプチャする。
これにより、背景ノイズ干渉を効果的に軽減しつつ、前景領域に集中するモデルの能力を高めることができる。
さらに,Adaptive Scale-Aware Module (ASAM) を開発し,その基本となるビルディングブロックとして,入出力依存型デフォルマブル・コンボリューション (IDConv) を開発した。
このモジュールは、ヘッドターゲット形状やスケールの変化に動的に適応し、大規模な変動に対応するネットワークの能力を大幅に改善する。
提案手法の有効性を上海Tech Part_A,Part_B,NWPU-Crowd,QNRFデータセットで検証した。
その結果,RCCFormerは4つのデータセットにまたがって優れたパフォーマンスを実現し,最先端の成果を示した。
関連論文リスト
- Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Band-Attention Modulated RetNet for Face Forgery Detection [44.0511745071837]
トランスフォーマーネットワークは、大規模なデータセットにまたがるスケーラビリティのために、顔の偽造検出に広く利用されている。
広義の視覚的コンテキストを効率的に処理する軽量ネットワークであるBAR-Netを導入する。
本稿では、離散コサイン変換スペクトログラム全体を、学習可能な重み付き一連の周波数帯域として扱う適応周波数帯域変調機構を提案する。
論文 参考訳(メタデータ) (2024-04-09T05:11:28Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。