論文の概要: Crowd Scene Analysis by Output Encoding
- arxiv url: http://arxiv.org/abs/2001.09556v1
- Date: Mon, 27 Jan 2020 01:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:17:00.063368
- Title: Crowd Scene Analysis by Output Encoding
- Title(参考訳): 出力符号化による群集シーン解析
- Authors: Yao Xue, Siming Liu, Yonghui Li, Xueming Qian
- Abstract要約: 信号空間の符号化における信号回帰のタスクに小さな物体の座標をキャストする圧縮出力センシング(CSOE)方式を提案する。
CSOEは、大規模な変動を伴わずに、ターゲットが非常に混雑している状況において、ローカライズパフォーマンスを向上させるのに役立つ。
また,適応受容場重み付け(ARFW)モジュールを開発し,スケール変動問題に対処する。
- 参考スコア(独自算出の注目度): 38.69524011345539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd scene analysis receives growing attention due to its wide applications.
Grasping the accurate crowd location (rather than merely crowd count) is
important for spatially identifying high-risk regions in congested scenes. In
this paper, we propose a Compressed Sensing based Output Encoding (CSOE)
scheme, which casts detecting pixel coordinates of small objects into a task of
signal regression in encoding signal space. CSOE helps to boost localization
performance in circumstances where targets are highly crowded without huge
scale variation. In addition, proper receptive field sizes are crucial for
crowd analysis due to human size variations. We create Multiple Dilated
Convolution Branches (MDCB) that offers a set of different receptive field
sizes, to improve localization accuracy when objects sizes change drastically
in an image. Also, we develop an Adaptive Receptive Field Weighting (ARFW)
module, which further deals with scale variation issue by adaptively
emphasizing informative channels that have proper receptive field size.
Experiments demonstrate the effectiveness of the proposed method, which
achieves state-of-the-art performance across four mainstream datasets,
especially achieves excellent results in highly crowded scenes. More
importantly, experiments support our insights that it is crucial to tackle
target size variation issue in crowd analysis task, and casting crowd
localization as regression in encoding signal space is quite effective for
crowd analysis.
- Abstract(参考訳): 群衆シーン分析はその幅広い応用によって注目を集めている。
混雑したシーンの高リスク領域を空間的に特定するためには、正確な群集位置(単に群集数ではなく)を把握することが重要である。
本稿では,小物体の画素座標の検出を信号空間のエンコーディングにおける信号回帰タスクにキャストする,圧縮センシングに基づく出力符号化(csoe)方式を提案する。
CSOEは、大規模な変動なしにターゲットが非常に混雑している状況において、ローカライズ性能を向上させるのに役立つ。
また,人体サイズの変化による群集分析には,適切な受容野の大きさが不可欠である。
画像中のオブジェクトサイズが劇的に変化するときのローカライズ精度を向上させるために、異なる受容フィールドサイズのセットを提供するMDCB(Multiple Dilated Convolution Branchs)を作成する。
また,適切な受容場サイズを有する情報チャネルを適応的に強調することで,スケール変動問題をさらに扱う適応受容場重み付け(arfw)モジュールを開発した。
提案手法の有効性を示す実験により,本手法は4つの主流データセットにまたがって最先端の性能を実現することができる。
さらに, 集団分析作業におけるターゲットサイズ変化問題に対処することが重要であり, 符号化信号空間の回帰として, 群集の局所化をキャストすることは, 群集解析に極めて効果的である。
関連論文リスト
- Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer [119.72951028190586]
クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
本稿では,高密度群集シーンにおける高精度なインスタンスローカライズを実現する方法について述べる。
混雑した群集シーンを対象とした拡張畳み込みスイム変換器 (DCST) を提案する。
論文 参考訳(メタデータ) (2021-08-02T01:27:53Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large
Scenes [57.969186815591186]
大規模なシーンの検出は、小さなオブジェクトと極端なスケールの変動のために難しい問題である。
本稿では,物体検出のための焦点領域を適応的に拡大するために,フレキシブルな形状と焦点長を有する選択的拡大器として,新しい適応型Zoom(AdaZoom)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T03:30:22Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。