論文の概要: Scene-Adaptive Attention Network for Crowd Counting
- arxiv url: http://arxiv.org/abs/2112.15509v1
- Date: Fri, 31 Dec 2021 15:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 16:41:30.404786
- Title: Scene-Adaptive Attention Network for Crowd Counting
- Title(参考訳): 群衆カウントのためのシーン適応型注意ネットワーク
- Authors: Xing Wei, Yuanrui Kang, Jihao Yang, Yunfeng Qiu, Dahu Shi, Wenming
Tan, Yihong Gong
- Abstract要約: 本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
- 参考スコア(独自算出の注目度): 31.29858034122248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, significant progress has been made on the research of crowd
counting. However, as the challenging scale variations and complex scenes
existed in crowds, neither traditional convolution networks nor recent
Transformer architectures with fixed-size attention could handle the task well.
To address this problem, this paper proposes a scene-adaptive attention
network, termed SAANet. First of all, we design a deformable attention in-built
Transformer backbone, which learns adaptive feature representations with
deformable sampling locations and dynamic attention weights. Then we propose
the multi-level feature fusion and count-attentive feature enhancement modules
further, to strengthen feature representation under the global image context.
The learned representations could attend to the foreground and are adaptive to
different scales of crowds. We conduct extensive experiments on four
challenging crowd counting benchmarks, demonstrating that our method achieves
state-of-the-art performance. Especially, our method currently ranks No.1 on
the public leaderboard of the NWPU-Crowd benchmark. We hope our method could be
a strong baseline to support future research in crowd counting. The source code
will be released to the community.
- Abstract(参考訳): 近年、群衆数式の研究において大きな進展がみられている。
しかし、群衆に難易度の高いスケールのバリエーションや複雑なシーンが存在したため、従来の畳み込みネットワークや固定サイズの注意力を持つ最近のトランスフォーマーアーキテクチャではうまく処理できなかった。
そこで本稿では,saanetと呼ばれるシーン適応型アテンションネットワークを提案する。
まず,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習する,組込み型トランスフォーマーバックボーンの設計を行った。
次に,多レベル特徴融合とカウント・アテンティブ特徴拡張モジュールを提案し,グローバル画像コンテキストにおける特徴表現の強化を図る。
学習された表現は前景に出席することができ、群衆の異なるスケールに対応できる。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成することを示す。
特に,本手法は現在,NWPU-Crowdベンチマークの公開リーダボードで第1位にランクされている。
私たちは、この手法が将来の群衆数の研究を支援する強力なベースラインになることを願っています。
ソースコードはコミュニティにリリースされる予定だ。
関連論文リスト
- Gramformer: Learning Crowd Counting via Graph-Modulated Transformer [68.26599222077466]
Gramformerはグラフ変調変換器で、それぞれ注意点と入力ノードの特徴を調整してネットワークを強化する。
ノードの集中位置や重要性を発見するために,特徴に基づく符号化を提案する。
提案手法の競争性を検証した4つの挑戦的群集カウントデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-01-08T13:01:54Z) - CrowdCLIP: Unsupervised Crowd Counting via Vision-Language Model [60.30099369475092]
監視された群衆のカウントは、高価な手作業によるラベリングに大きく依存している。
本稿では,クラウドカウントのための新しい非教師付きフレームワークであるCrowdCLIPを提案する。
CrowdCLIPは、従来の教師なしの最先端カウント手法と比較して、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-04-09T12:56:54Z) - Crowd counting with segmentation attention convolutional neural network [20.315829094519128]
我々はSegCrowdNetと呼ばれる新しい畳み込みニューラルネットワークアーキテクチャを提案する。
SegCrowdNetは人間の頭領域を適応的に強調し、セグメント化によって非頭領域を抑圧する。
SegCrowdNetは最先端のメソッドと比較して優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-04-15T08:40:38Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Fine-grained Domain Adaptive Crowd Counting via Point-derived
Segmentation [40.17242574440061]
本研究では, 群集画像から, 群集と群集固有の背景を抽出する手法を提案する。
具体的には、背景から群集を遠ざけるために、ポイントレベルの群集カウントアノテーションから群集のセグメンテーションを学習することを提案する。
得られたセグメンテーションに基づいて、2つのクラウド対応適応モジュールからなるクラウド対応ドメイン適応機構を設計する。
論文 参考訳(メタデータ) (2021-08-06T07:16:48Z) - Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer [119.72951028190586]
クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
本稿では,高密度群集シーンにおける高精度なインスタンスローカライズを実現する方法について述べる。
混雑した群集シーンを対象とした拡張畳み込みスイム変換器 (DCST) を提案する。
論文 参考訳(メタデータ) (2021-08-02T01:27:53Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z) - Over-crowdedness Alert! Forecasting the Future Crowd Distribution [87.12694319017346]
提案手法は,クラウドビデオの逐次的フレームを識別アノテーションを使わずに,近い将来に群衆の分布を予測することを目的として,新しい群集解析問題を定式化したものである。
この問題を解決するために, 連続する群集映像フレームを入力とし, 対応する密度マップを補助情報として利用するグローバルな2ストリームリカレントネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-09T08:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。