論文の概要: Boosting Crowd Counting via Multifaceted Attention
- arxiv url: http://arxiv.org/abs/2203.02636v1
- Date: Sat, 5 Mar 2022 01:36:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 16:16:57.544576
- Title: Boosting Crowd Counting via Multifaceted Attention
- Title(参考訳): 多面的注意による集団カウントの強化
- Authors: Hui Lin and Zhiheng Ma and Rongrong Ji and Yaowei Wang and Xiaopeng
Hong
- Abstract要約: 大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
- 参考スコア(独自算出の注目度): 109.89185492364386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the challenging crowd counting task. As large-scale
variations often exist within crowd images, neither fixed-size convolution
kernel of CNN nor fixed-size attention of recent vision transformers can well
handle this kind of variation. To address this problem, we propose a
Multifaceted Attention Network (MAN) to improve transformer models in local
spatial relation encoding. MAN incorporates global attention from a vanilla
transformer, learnable local attention, and instance attention into a counting
model. Firstly, the local Learnable Region Attention (LRA) is proposed to
assign attention exclusively for each feature location dynamically. Secondly,
we design the Local Attention Regularization to supervise the training of LRA
by minimizing the deviation among the attention for different feature
locations. Finally, we provide an Instance Attention mechanism to focus on the
most important instances dynamically during training. Extensive experiments on
four challenging crowd counting datasets namely ShanghaiTech, UCF-QNRF, JHU++,
and NWPU have validated the proposed method. Codes:
https://github.com/LoraLinH/Boosting-Crowd-Counting-via-Multifaceted-Attention.
- Abstract(参考訳): 本稿は,群衆の集計課題に注目する。
群衆画像には大規模な変動がしばしば存在するため、CNNの固定サイズの畳み込みカーネルや、最近の視覚変換器の固定サイズの注意は、このような変動をうまく扱えない。
この問題に対処するために,局所空間関係符号化におけるトランスフォーマモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
manは、バニラ変圧器からのグローバル注意、学習可能なローカル注意、そしてインスタンス注意を計数モデルに組み込む。
まず,局所学習可能領域注意(lra)を提案し,各特徴位置に対して動的に注意を割り当てる。
第2に,LRAの訓練を監督するローカルアテンション規則化を設計し,異なる特徴点に対する注意のずれを最小限に抑える。
最後に、トレーニング中に最も重要なインスタンスを動的にフォーカスするインスタンス注意メカニズムを提供します。
shanghaitech, ucf-qnrf, jhu++, nwpuの4つの挑戦的クラウドカウントデータセットに関する広範な実験により,提案手法が検証された。
コード:https://github.com/LoraLinH/Boosting-Crowd-Counting-via-Multifaceted-Attention。
関連論文リスト
- A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Preserving Locality in Vision Transformers for Class Incremental
Learning [54.696808348218426]
ViTを漸進的に訓練すると、注目層は徐々に局所的な特徴に集中できなくなる。
ローカル機能の重要性を強調するために、ローカル性保存アテンション層を考案する。
改良されたモデルは、CIFAR100とImageNet100で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-14T07:42:21Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Reinforcing Local Feature Representation for Weakly-Supervised Dense
Crowd Counting [21.26385035473938]
本稿では,局所表現の強化を目的とした自己適応型特徴類似性学習ネットワークとグローバル局所整合性損失を提案する。
異なるバックボーンをベースとした提案手法は,弱教師付き群集数と完全教師付き群集数とのギャップを狭める。
論文 参考訳(メタデータ) (2022-02-22T05:53:51Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer [119.72951028190586]
クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
本稿では,高密度群集シーンにおける高精度なインスタンスローカライズを実現する方法について述べる。
混雑した群集シーンを対象とした拡張畳み込みスイム変換器 (DCST) を提案する。
論文 参考訳(メタデータ) (2021-08-02T01:27:53Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - Hybrid attention network based on progressive embedding scale-context
for crowd counting [25.866856497266884]
本稿では,PES(Progressive Embedding Scale-Context)情報を利用したハイブリッド注意ネットワークを提案する。
我々は、空間的注意とチャネル的注意モジュールを並列化することで、ハイブリッドな注意機構を構築する。
PES情報により、ネットワークはノイズを同時に抑制し、ヘッドスケールの変動を適応させることができる。
論文 参考訳(メタデータ) (2021-06-04T08:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。