論文の概要: Unsupervised Multi-view Pedestrian Detection
- arxiv url: http://arxiv.org/abs/2305.12457v2
- Date: Sun, 19 Nov 2023 13:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:37:22.208920
- Title: Unsupervised Multi-view Pedestrian Detection
- Title(参考訳): 教師なしマルチビュー歩行者検出
- Authors: Mengyin Liu, Chao Zhu, Shiqi Ren, Xu-Cheng Yin
- Abstract要約: 2D-3Dマッピングによる多視点歩行者検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
SISは、疑似ラベルとして2次元歩行者マスクに変換される多視点画像の教師なし表現を抽出することを提案する。
GVDは、多視点2D画像を3Dボリュームにエンコードし、3Dから2Dマッピングで訓練された2Dから3Dの幾何学的投影を通して、ボクセルの密度と色を予測する。
- 参考スコア(独自算出の注目度): 12.882317991955228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prosperity of the video surveillance, multiple cameras have been
applied to accurately locate pedestrians in a specific area. However, previous
methods rely on the human-labeled annotations in every video frame and camera
view, leading to heavier burden than necessary camera calibration and
synchronization. Therefore, we propose in this paper an Unsupervised Multi-view
Pedestrian Detection approach (UMPD) to eliminate the need of annotations to
learn a multi-view pedestrian detector via 2D-3D mapping. 1) Firstly,
Semantic-aware Iterative Segmentation (SIS) is proposed to extract unsupervised
representations of multi-view images, which are converted into 2D pedestrian
masks as pseudo labels, via our proposed iterative PCA and zero-shot semantic
classes from vision-language models. 2) Secondly, we propose Geometry-aware
Volume-based Detector (GVD) to end-to-end encode multi-view 2D images into a 3D
volume to predict voxel-wise density and color via 2D-to-3D geometric
projection, trained by 3D-to-2D rendering losses with SIS pseudo labels. 3)
Thirdly, for better detection results, i.e., the 3D density projected on
Birds-Eye-View from GVD, we propose Vertical-aware BEV Regularization (VBR) to
constraint them to be vertical like the natural pedestrian poses. Extensive
experiments on popular multi-view pedestrian detection benchmarks Wildtrack,
Terrace, and MultiviewX, show that our proposed UMPD approach, as the first
fully-unsupervised method to our best knowledge, performs competitively to the
previous state-of-the-art supervised techniques. Code will be available.
- Abstract(参考訳): ビデオ監視の繁栄により、特定のエリアの歩行者を正確に見つけるために複数のカメラが適用された。
しかし、従来の手法では、ビデオフレームやカメラビューごとに人間のラベル付きアノテーションに依存しており、カメラキャリブレーションや同期よりも重い負担がかかる。
そこで本稿では,2D-3Dマッピングによる多視点検出器の学習におけるアノテーションの必要性を排除するために,unsupervised Multi-view Pedestrian Detection approach (UMPD)を提案する。
1)セマンティクス対応反復セグメンテーション(sis)は,視覚言語モデルから提案する反復型pcaとゼロショット意味クラスを用いて,仮想ラベルとして2次元歩行者マスクに変換されるマルチビュー画像の教師なし表現を抽出する。
2)2D-to-3D幾何投影による3D-to-2Dレンダリングの損失をSIS擬似ラベルを用いてトレーニングし,多視点2D画像を3次元ボリュームにエンコードし,ボクセルの密度と色を予測する。
3)GVDからバードスアイビューに投影される3次元密度のより優れた検出結果を得るためには,垂直型BEV正規化(VBR)を提案し,自然歩行者のポーズのように垂直となるように拘束する。
一般的な多視点歩行者検出ベンチマークであるWildtrack,Terrace,MultiviewXの広範囲にわたる実験により,提案手法は,これまでの最先端の監視手法と競争的に機能することを示す。
コードは利用可能だ。
関連論文リスト
- Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Unsupervised 3D Keypoint Discovery with Multi-View Geometry [104.76006413355485]
本研究では,多視点画像から人体上の3Dキーポイントを,監督やラベルなしで発見するアルゴリズムを提案する。
我々の手法は、他の最先端の教師なしアプローチと比較して、より解釈可能で正確な3Dキーポイントを発見する。
論文 参考訳(メタデータ) (2022-11-23T10:25:12Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - DSGN++: Exploiting Visual-Spatial Relation forStereo-based 3D Detectors [60.88824519770208]
カメラベースの3Dオブジェクト検出器は、LiDARセンサーよりも広い展開と低価格のため歓迎されている。
我々は3次元幾何学と意味論の両方を表現するステレオボリューム構造について、以前のステレオモデリングDSGNを再考する。
本稿では,2次元から3次元のパイプラインを通しての情報フローを改善することを目的としたDSGN++を提案する。
論文 参考訳(メタデータ) (2022-04-06T18:43:54Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。