論文の概要: Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes
- arxiv url: http://arxiv.org/abs/2012.00946v1
- Date: Wed, 2 Dec 2020 03:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:02:07.180484
- Title: Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes
- Title(参考訳): 広域群集計数:大規模シーンにおける多視点融合ネットワーク
- Authors: Qi Zhang, Antoni B. Chan
- Abstract要約: マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
- 参考スコア(独自算出の注目度): 50.744452135300115
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Crowd counting in single-view images has achieved outstanding performance on
existing counting datasets. However, single-view counting is not applicable to
large and wide scenes (e.g., public parks, long subway platforms, or event
spaces) because a single camera cannot capture the whole scene in adequate
detail for counting, e.g., when the scene is too large to fit into the
field-of-view of the camera, too long so that the resolution is too low on
faraway crowds, or when there are too many large objects that occlude large
portions of the crowd. Therefore, to solve the wide-area counting task requires
multiple cameras with overlapping fields-of-view. In this paper, we propose a
deep neural network framework for multi-view crowd counting, which fuses
information from multiple camera views to predict a scene-level density map on
the ground-plane of the 3D world. We consider three versions of the fusion
framework: the late fusion model fuses camera-view density map; the naive early
fusion model fuses camera-view feature maps; and the multi-view multi-scale
early fusion model ensures that features aligned to the same ground-plane point
have consistent scales. A rotation selection module further ensures consistent
rotation alignment of the features. We test our 3 fusion models on 3 multi-view
counting datasets, PETS2009, DukeMTMC, and a newly collected multi-view
counting dataset containing a crowded street intersection. Our methods achieve
state-of-the-art results compared to other multi-view counting baselines.
- Abstract(参考訳): シングルビュー画像における群衆カウントは、既存の計数データセットにおいて優れたパフォーマンスを達成している。
しかし、例えば、シーンがカメラの視野に収まるには大きすぎる場合や、遠くの群衆に解像度が低くなりすぎる場合、あるいは群衆の大部分を遮る大きな物体が多すぎる場合など、単一のカメラが計数するのに十分な細部を捉えられないため、大きなシーン(例えば、公園、地下鉄のホーム、イベントスペースなど)には、単視点計数では適用できない。
したがって、広域カウントタスクを解決するには、複数のカメラが重なり合う視野を持つ必要がある。
本稿では,複数のカメラからの情報を融合して3次元世界平面上のシーンレベルの密度マップを予測できる,多視点群数計算のためのディープニューラルネットワークフレームワークを提案する。
融合フレームワークの3つのバージョンについて検討する: 後期核融合モデルがカメラビュー密度マップを融合する; 単純核融合モデルがカメラビュー特徴マップを融合する; 複数核融合モデルが同一平面点に整列した特徴が一貫したスケールを持つことを保証する。
回転選択モジュールは、特徴の一貫した回転アライメントをさらに確保する。
我々は,3つの多視点カウントデータセット,PETS2009,DukeMTMC,および混み合った交差点を含む新たに収集された多視点カウントデータセット上で,我々の3つの融合モデルを検証した。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
関連論文リスト
- NWPU-MOC: A Benchmark for Fine-grained Multi-category Object Counting in
Aerial Images [64.92809155168595]
本稿では,空中画像中の異なる物体の数を推定する多カテゴリオブジェクトカウントタスクを提案する。
このタスクのデータセットが存在しないことを考慮して、大規模なデータセットが収集され、解像度が1024$times$1024ピクセルの3,416のシーンで構成されている。
本稿では,RGB と NIR の特徴を融合させるために,デュアルアテンションモジュールを用いたマルチスペクトル・マルチカテゴリオブジェクトカウントフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T07:12:36Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z) - 3M3D: Multi-view, Multi-path, Multi-representation for 3D Object
Detection [0.5156484100374059]
本稿では,3次元物体検出のためのマルチビュー,マルチパス,マルチ表現3M3Dを提案する。
我々は、パノラマビューと粗いグローバルビューの両方において、シーンの表現を強化するために、マルチビュー機能とクエリ機能の両方を更新する。
ベースライン上でnuScenesベンチマークデータセットのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2023-02-16T11:28:30Z) - Cross-View Cross-Scene Multi-View Crowd Counting [56.83882084112913]
従来,複数カメラを用いて1台のカメラの視野を拡大する手法が提案されてきた。
任意のカメラレイアウトで異なるシーンでトレーニングやテストを行う,クロスビュー・クロスシーン(CVCS)のマルチビュー・クラウドカウント・パラダイムを提案する。
論文 参考訳(メタデータ) (2022-05-03T15:03:44Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - 3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels [56.964614522968226]
マルチビュー・マルチスケール(MVMS)と呼ばれる,エンドツーエンドのマルチビュー・クラウドカウント手法を提案する。
MVMSとは違って,2次元地上平面ではなく3次元シーンレベルの密度マップと3次元特徴融合により,群集カウントタスクを解くことを提案する。
提案手法は3つのマルチビューカウンティングデータセット上でテストされ、最先端のカウンティング性能を向上する。
論文 参考訳(メタデータ) (2020-03-18T11:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。