論文の概要: Crowd Counting via Perspective-Guided Fractional-Dilation Convolution
- arxiv url: http://arxiv.org/abs/2107.03665v1
- Date: Thu, 8 Jul 2021 07:57:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 19:55:38.692205
- Title: Crowd Counting via Perspective-Guided Fractional-Dilation Convolution
- Title(参考訳): パースペクティブ誘導分数拡大畳み込みによる群集数
- Authors: Zhaoyi Yan, Ruimao Zhang, Hongzhi Zhang, Qingfu Zhang, and Wangmeng
Zuo
- Abstract要約: 本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
- 参考スコア(独自算出の注目度): 75.36662947203192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd counting is critical for numerous video surveillance scenarios. One of
the main issues in this task is how to handle the dramatic scale variations of
pedestrians caused by the perspective effect. To address this issue, this paper
proposes a novel convolution neural network-based crowd counting method, termed
Perspective-guided Fractional-Dilation Network (PFDNet). By modeling the
continuous scale variations, the proposed PFDNet is able to select the proper
fractional dilation kernels for adapting to different spatial locations. It
significantly improves the flexibility of the state-of-the-arts that only
consider the discrete representative scales. In addition, by avoiding the
multi-scale or multi-column architecture that used in other methods, it is
computationally more efficient. In practice, the proposed PFDNet is constructed
by stacking multiple Perspective-guided Fractional-Dilation Convolutions (PFC)
on a VGG16-BN backbone. By introducing a novel generalized dilation convolution
operation, the PFC can handle fractional dilation ratios in the spatial domain
under the guidance of perspective annotations, achieving continuous scales
modeling of pedestrians. To deal with the problem of unavailable perspective
information in some cases, we further introduce an effective perspective
estimation branch to the proposed PFDNet, which can be trained in either
supervised or weakly-supervised setting once the branch has been pre-trained.
Extensive experiments show that the proposed PFDNet outperforms
state-of-the-art methods on ShanghaiTech A, ShanghaiTech B, WorldExpo'10,
UCF-QNRF, UCF_CC_50 and TRANCOS dataset, achieving MAE 53.8, 6.5, 6.8, 84.3,
205.8, and 3.06 respectively.
- Abstract(参考訳): 群衆のカウントは多くのビデオ監視シナリオにとって重要である。
このタスクの主な問題の一つは、視点効果によって引き起こされる歩行者の劇的な規模の変化をどう扱うかである。
そこで本稿では,新しい畳み込みニューラルネットワークに基づく群衆カウント手法である「パースペクティブガイド分数拡張ネットワーク(pfdnet)」を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮する最先端の柔軟性を大幅に改善する。
さらに、他の方法で使用されるマルチスケールやマルチカラムアーキテクチャを避けることにより、計算効率が向上する。
実際に提案したPFDNetは、複数のPFCをVGG16-BNバックボーン上に積み重ねて構築されている。
新たに一般化された拡張畳み込み操作を導入することで、PFCはパースペクティブアノテーションの指導の下で空間領域の分数拡張比を処理し、歩行者の連続的なスケールモデリングを実現する。
利用できない視点情報の問題に対処するために,提案したPFDNetに効果的な視点推定分岐を導入する。
大規模な実験により、提案されたPFDNetは上海技術A、上海技術B、WorldExpo'10、UCF-QNRF、UCF_CC_50、TRANCOSのデータセットでそれぞれMAE 53.8、6.5、84.3、205.8、3.06の最先端の手法より優れていた。
関連論文リスト
- One-Shot Federated Learning with Bayesian Pseudocoresets [19.53527340816458]
分散関数空間推論はベイズ擬似コア集合の学習と密接に関連していることを示す。
提案手法は,最先端技術と競合する予測性能を実現するとともに,最大2桁の通信コストの大幅な削減を図っている。
論文 参考訳(メタデータ) (2024-06-04T10:14:39Z) - Adapting to Length Shift: FlexiLength Network for Trajectory Prediction [53.637837706712794]
軌道予測は、自律運転、ロボット工学、シーン理解など、様々な応用において重要な役割を果たしている。
既存のアプローチは主に、一般に標準入力時間を用いて、公開データセットの予測精度を高めるために、コンパクトなニューラルネットワークの開発に重点を置いている。
本稿では,様々な観測期間に対する既存の軌道予測の堅牢性を高めるための,汎用的で効果的なフレームワークFlexiLength Network(FLN)を紹介する。
論文 参考訳(メタデータ) (2024-03-31T17:18:57Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - CFDP: Common Frequency Domain Pruning [0.3021678014343889]
本稿では,周波数領域を経由したモデルプルーニングのための新しいエンドツーエンドパイプラインを提案する。
我々はCIFAR-10で、GoogLeNetが95.25%、すなわちオリジナルのモデルから+0.2%の精度で達成した。
特筆すべきパフォーマンスに加えて、CFDPによって生成されたモデルは、様々な構成に対して堅牢性を示す。
論文 参考訳(メタデータ) (2023-06-07T04:49:26Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Contextual Pyramid Attention Network for Building Segmentation in Aerial
Imagery [12.241693880896348]
航空画像からの抽出は、都市計画、変更検出、災害管理といった問題にいくつかの応用がある。
コンテキストピラミッドアテンション(CPA)を用いた長距離依存関係のキャプチャにより,異なるサイズのセグメンテーションを改善することを提案する。
提案手法は,現在の最先端手法よりも1.8点,既存のベースラインよりも12.6点高い1.8点を後処理なしで改善する。
論文 参考訳(メタデータ) (2020-04-15T11:36:26Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - Correspondence Networks with Adaptive Neighbourhood Consensus [22.013820169455812]
適応近傍コンセンサスネットワーク(ANC-Net)と呼ばれる畳み込みニューラルネットワークアーキテクチャを提案する。
ANC-Netは、この課題に対処するために、疎いキーポイントアノテーションでエンドツーエンドにトレーニングすることができる。
提案手法の有効性を様々なベンチマークで徹底的に評価し,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-03-26T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。