論文の概要: 3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels
- arxiv url: http://arxiv.org/abs/2003.08162v1
- Date: Wed, 18 Mar 2020 11:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:42:28.594464
- Title: 3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels
- Title(参考訳): 3次元ガウス核とのマルチビュー融合による3次元群数計測
- Authors: Qi Zhang and Antoni B. Chan
- Abstract要約: マルチビュー・マルチスケール(MVMS)と呼ばれる,エンドツーエンドのマルチビュー・クラウドカウント手法を提案する。
MVMSとは違って,2次元地上平面ではなく3次元シーンレベルの密度マップと3次元特徴融合により,群集カウントタスクを解くことを提案する。
提案手法は3つのマルチビューカウンティングデータセット上でテストされ、最先端のカウンティング性能を向上する。
- 参考スコア(独自算出の注目度): 56.964614522968226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting has been studied for decades and a lot of works have achieved
good performance, especially the DNNs-based density map estimation methods.
Most existing crowd counting works focus on single-view counting, while few
works have studied multi-view counting for large and wide scenes, where
multiple cameras are used. Recently, an end-to-end multi-view crowd counting
method called multi-view multi-scale (MVMS) has been proposed, which fuses
multiple camera views using a CNN to predict a 2D scene-level density map on
the ground-plane. Unlike MVMS, we propose to solve the multi-view crowd
counting task through 3D feature fusion with 3D scene-level density maps,
instead of the 2D ground-plane ones. Compared to 2D fusion, the 3D fusion
extracts more information of the people along z-dimension (height), which helps
to solve the scale variations across multiple views. The 3D density maps still
preserve the 2D density maps property that the sum is the count, while also
providing 3D information about the crowd density. We also explore the
projection consistency among the 3D prediction and the ground-truth in the 2D
views to further enhance the counting performance. The proposed method is
tested on 3 multi-view counting datasets and achieves better or comparable
counting performance to the state-of-the-art.
- Abstract(参考訳): 群衆の数え上げは数十年にわたって研究され、特にDNNに基づく密度マップ推定法において、多くの研究が優れた成果を上げている。
既存の群衆計数作業の多くは単一視点計数に重点を置いているが、複数のカメラを使用する大規模・広視野の多視点計数の研究は少ない。
近年,Multi-view Multi-scale (MVMS) と呼ばれる,複数のカメラビューをCNNで融合し,平面上の2次元シーンレベルの密度マップを推定する手法が提案されている。
MVMSとは違って,2次元地上平面ではなく3次元シーンレベル密度マップと3次元特徴融合による多視点群カウントタスクを提案する。
2D融合と比較して、3D融合は、z次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動を解決するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
また,2次元ビューにおける3次元予測と基底構造間の投影整合性について検討し,計数性能をさらに向上させる。
提案手法は,3つのマルチビュー計数データセット上でテストし,最先端の計数性能と同等の性能を実現する。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Regulating Intermediate 3D Features for Vision-Centric Autonomous
Driving [26.03800936700545]
本稿では,ボリュームレンダリングの助けを借りて,中間的な高密度な3次元特徴を規制することを提案する。
Occ3DデータセットとnuScenesデータセットの実験結果から、ヴァンパイアは密度の高い3D特徴の微細で適切な抽出を容易にすることが示された。
論文 参考訳(メタデータ) (2023-12-19T04:09:05Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Multi-View Transformer for 3D Visual Grounding [64.30493173825234]
3次元視覚グラウンドリングのためのマルチビュー変換器(MVT)を提案する。
我々は3Dシーンを多視点空間に投影し、異なるビュー下の3Dシーンの位置情報を同時にモデル化して集約する。
論文 参考訳(メタデータ) (2022-04-05T12:59:43Z) - Wide-Area Crowd Counting: Multi-View Fusion Networks for Counting in
Large Scenes [50.744452135300115]
マルチビュー・クラウドカウントのためのディープニューラルネットワークフレームワークを提案する。
提案手法は,他のマルチビューカウントベースラインと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-12-02T03:20:30Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z) - Light3DPose: Real-time Multi-Person 3D PoseEstimation from Multiple
Views [5.510992382274774]
いくつかのキャリブレーションされたカメラビューから複数の人物の3次元ポーズ推定を行う手法を提案する。
我々のアーキテクチャは、2次元ポーズ推定器のバックボーンから特徴マップを3次元シーンの包括的表現に集約する。
提案手法は本質的に効率的であり, 純粋なボトムアップ手法として, 現場の人数から計算的に独立している。
論文 参考訳(メタデータ) (2020-04-06T14:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。