論文の概要: 3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels
- arxiv url: http://arxiv.org/abs/2003.08162v1
- Date: Wed, 18 Mar 2020 11:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:42:28.594464
- Title: 3D Crowd Counting via Multi-View Fusion with 3D Gaussian Kernels
- Title(参考訳): 3次元ガウス核とのマルチビュー融合による3次元群数計測
- Authors: Qi Zhang and Antoni B. Chan
- Abstract要約: マルチビュー・マルチスケール(MVMS)と呼ばれる,エンドツーエンドのマルチビュー・クラウドカウント手法を提案する。
MVMSとは違って,2次元地上平面ではなく3次元シーンレベルの密度マップと3次元特徴融合により,群集カウントタスクを解くことを提案する。
提案手法は3つのマルチビューカウンティングデータセット上でテストされ、最先端のカウンティング性能を向上する。
- 参考スコア(独自算出の注目度): 56.964614522968226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting has been studied for decades and a lot of works have achieved
good performance, especially the DNNs-based density map estimation methods.
Most existing crowd counting works focus on single-view counting, while few
works have studied multi-view counting for large and wide scenes, where
multiple cameras are used. Recently, an end-to-end multi-view crowd counting
method called multi-view multi-scale (MVMS) has been proposed, which fuses
multiple camera views using a CNN to predict a 2D scene-level density map on
the ground-plane. Unlike MVMS, we propose to solve the multi-view crowd
counting task through 3D feature fusion with 3D scene-level density maps,
instead of the 2D ground-plane ones. Compared to 2D fusion, the 3D fusion
extracts more information of the people along z-dimension (height), which helps
to solve the scale variations across multiple views. The 3D density maps still
preserve the 2D density maps property that the sum is the count, while also
providing 3D information about the crowd density. We also explore the
projection consistency among the 3D prediction and the ground-truth in the 2D
views to further enhance the counting performance. The proposed method is
tested on 3 multi-view counting datasets and achieves better or comparable
counting performance to the state-of-the-art.
- Abstract(参考訳): 群衆の数え上げは数十年にわたって研究され、特にDNNに基づく密度マップ推定法において、多くの研究が優れた成果を上げている。
既存の群衆計数作業の多くは単一視点計数に重点を置いているが、複数のカメラを使用する大規模・広視野の多視点計数の研究は少ない。
近年,Multi-view Multi-scale (MVMS) と呼ばれる,複数のカメラビューをCNNで融合し,平面上の2次元シーンレベルの密度マップを推定する手法が提案されている。
MVMSとは違って,2次元地上平面ではなく3次元シーンレベル密度マップと3次元特徴融合による多視点群カウントタスクを提案する。
2D融合と比較して、3D融合は、z次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動を解決するのに役立つ。
3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
また,2次元ビューにおける3次元予測と基底構造間の投影整合性について検討し,計数性能をさらに向上させる。
提案手法は,3つのマルチビュー計数データセット上でテストし,最先端の計数性能と同等の性能を実現する。
関連論文リスト
- Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction [28.071645239063553]
本稿では,DHD(Deep Height Decoupling,ディープハイトデカップリング,Deep Height Decoupling,DHD)について述べる。
一般的なOcc3D-nuScenesベンチマークでは,最小入力フレームでも最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T12:12:19Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection [101.20784125067559]
本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
論文 参考訳(メタデータ) (2021-07-30T02:00:06Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。