論文の概要: Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer
- arxiv url: http://arxiv.org/abs/2108.00584v1
- Date: Mon, 2 Aug 2021 01:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 02:36:43.133610
- Title: Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer
- Title(参考訳): Dilated Convolutional Swin Transformer を用いた混雑群集の局所化
- Authors: Junyu Gao, Maoguo Gong, Xuelong Li
- Abstract要約: クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
本稿では,高密度群集シーンにおける高精度なインスタンスローカライズを実現する方法について述べる。
混雑した群集シーンを対象とした拡張畳み込みスイム変換器 (DCST) を提案する。
- 参考スコア(独自算出の注目度): 119.72951028190586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd localization is a new computer vision task, evolved from crowd
counting. Different from the latter, it provides more precise location
information for each instance, not just counting numbers for the whole crowd
scene, which brings greater challenges, especially in extremely congested crowd
scenes. In this paper, we focus on how to achieve precise instance localization
in high-density crowd scenes, and to alleviate the problem that the feature
extraction ability of the traditional model is reduced due to the target
occlusion, the image blur, etc. To this end, we propose a Dilated Convolutional
Swin Transformer (DCST) for congested crowd scenes. Specifically, a
window-based vision transformer is introduced into the crowd localization task,
which effectively improves the capacity of representation learning. Then, the
well-designed dilated convolutional module is inserted into some different
stages of the transformer to enhance the large-range contextual information.
Extensive experiments evidence the effectiveness of the proposed methods and
achieve state-of-the-art performance on five popular datasets. Especially, the
proposed model achieves F1-measure of 77.5\% and MAE of 84.2 in terms of
localization and counting performance, respectively.
- Abstract(参考訳): クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
後者とは違って、各インスタンスの正確な位置情報を提供し、群衆シーン全体の数字をカウントするだけでなく、特に非常に混雑した群衆シーンにおいて大きな課題をもたらす。
本稿では,高濃度の群衆シーンにおける正確なインスタンスローカライズを実現する方法に着目し,従来のモデルの特徴抽出能力が目標のオクルージョンや画像のぼかしなどにより低下する問題を緩和する。
そこで本研究では,混み合った群衆シーンに対する拡張畳み込みスウィントランス(dcst)を提案する。
具体的には、ウィンドウベースの視覚変換器をクラウドローカライゼーションタスクに導入し、表現学習の能力を効果的に向上させる。
そして、よく設計された拡張畳み込みモジュールを変圧器のいくつかの異なるステージに挿入して、大域的文脈情報を強化する。
広範な実験により、提案手法の有効性が証明され、5つの人気のあるデータセットで最先端のパフォーマンスが得られた。
特に,提案モデルでは, 局所化およびカウント性能の観点から, 77.5\%のF1値と84.2のMAE値をそれぞれ達成している。
関連論文リスト
- Towards Grouping in Large Scenes with Occlusion-aware Spatio-temporal
Transformers [47.83631610648981]
特に大規模なシーンにおけるグループ検出は、公共の安全とスマートシティに多くの潜在的な応用がある。
既存の方法は、複数の人との大規模なシーンにおいて、頻繁に排他的に対処することができない。
本稿では,大規模シーンにおけるグループ検出のためのエンドツーエンドフレームワークTransformerを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:17:22Z) - CrowdFormer: Weakly-supervised Crowd counting with Improved
Generalizability [2.8174125805742416]
本稿では,ピラミッド・ビジョン・トランスを用いた群集カウント手法を提案する。
我々の手法は,ベンチマーククラウドデータセットの最先端技術に匹敵するものである。
論文 参考訳(メタデータ) (2022-03-07T23:10:40Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - An End-to-End Transformer Model for Crowd Localization [64.15335535775883]
頭の位置を予測するクラウドローカライゼーションは、単にカウントするよりも実用的でハイレベルなタスクである。
既存の方法は擬似有界ボックスや事前設計されたローカライゼーションマップを使用し、複雑な後処理に頼って先頭位置を得る。
本稿では,レグレッションベースパラダイムの課題を解決するエレガントでエンドツーエンドなクラウドローカライゼーションTRansformerを提案する。
論文 参考訳(メタデータ) (2022-02-26T05:21:30Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Crowd Scene Analysis by Output Encoding [38.69524011345539]
信号空間の符号化における信号回帰のタスクに小さな物体の座標をキャストする圧縮出力センシング(CSOE)方式を提案する。
CSOEは、大規模な変動を伴わずに、ターゲットが非常に混雑している状況において、ローカライズパフォーマンスを向上させるのに役立つ。
また,適応受容場重み付け(ARFW)モジュールを開発し,スケール変動問題に対処する。
論文 参考訳(メタデータ) (2020-01-27T01:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。