論文の概要: PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting
- arxiv url: http://arxiv.org/abs/2111.00406v1
- Date: Sun, 31 Oct 2021 04:43:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 15:14:42.913180
- Title: PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting
- Title(参考訳): panet:動的受容場を有する視点認識ネットワークと自己蒸留監視による群衆数計測
- Authors: Xiaoshuang Chen, Yiru Zhao, Yu Qin, Fei Jiang, Mingyuan Tao, Xiansheng
Hua, Hongtao Lu
- Abstract要約: 本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
- 参考スコア(独自算出の注目度): 63.84828478688975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting aims to learn the crowd density distributions and estimate the
number of objects (e.g. persons) in images. The perspective effect, which
significantly influences the distribution of data points, plays an important
role in crowd counting. In this paper, we propose a novel perspective-aware
approach called PANet to address the perspective problem. Based on the
observation that the size of the objects varies greatly in one image due to the
perspective effect, we propose the dynamic receptive fields (DRF) framework.
The framework is able to adjust the receptive field by the dilated convolution
parameters according to the input image, which helps the model to extract more
discriminative features for each local region. Different from most previous
works which use Gaussian kernels to generate the density map as the supervised
information, we propose the self-distilling supervision (SDS) training method.
The ground-truth density maps are refined from the first training stage and the
perspective information is distilled to the model in the second stage. The
experimental results on ShanghaiTech Part_A and Part_B, UCF_QNRF, and UCF_CC_50
datasets demonstrate that our proposed PANet outperforms the state-of-the-art
methods by a large margin.
- Abstract(参考訳): 群衆カウントは、群衆密度分布を学習し、画像中の物体(例えば人)の数を推定することを目的としている。
データポイントの分布に大きな影響を与える視点効果は、群衆カウントにおいて重要な役割を果たす。
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
ガウスカーネルを用いて教師付き情報として密度マップを生成する従来の研究とは異なり、自己蒸留監督(SDS)訓練法を提案する。
第1の訓練段階から接地トラス密度マップを精製し、第2の訓練段階においてモデルに視点情報を蒸留する。
上海工科大学 part_a および part_b, ucf_qnrf, ucf_cc_50 データセットにおける実験結果から, 提案する panet が最先端手法よりも高いマージンを示した。
関連論文リスト
- FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Focus for Free in Density-Based Counting [56.961229110268036]
利用可能なポイントアノテーションを再利用して、カウント性能を向上させる2つの方法を紹介します。
1つ目は、ポイントアノテーションを利用して、入力画像と密度画像の両方で隠蔽されたオブジェクトをシミュレートするカウント固有の拡張である。
第2の方法である前景蒸留は点アノテーションから前景マスクを生成し,黒色背景を持つ画像上で補助的ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-06-08T11:54:37Z) - Crowd Counting via Perspective-Guided Fractional-Dilation Convolution [75.36662947203192]
本稿では,PFDNetと呼ばれる新しい畳み込みニューラルネットワークを用いた群集カウント手法を提案する。
連続スケールの変動をモデル化することにより、提案したPFDNetは、異なる空間位置に対応するための適切な分数拡張カーネルを選択することができる。
これは、個々の代表スケールのみを考慮した最先端技術の柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-08T07:57:00Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。